简 介
蛋白质亚细胞定位的预测对蛋白质组学研究具有重要意义。在这里,我们建议对流行的工具 DeepLoc 进行更新,以进行多定位预测并改进性能和可解释性。为了进行训练和验证,我们整理了具有严格同源性分区的真核和人类多位置蛋白质数据集,并丰富了从文献中汇编的排序信号信息。我们通过使用预训练的蛋白质语言模型在 DeepLoc 2.0 中实现了最先进的性能。它的另一个优点是它使用序列输入而不是依赖较慢的蛋白质图谱。我们提供了两种更好的可解释性方法:沿着序列的注意力输出和对九种不同类型的蛋白质分选信号的高度准确预测。我们发现注意力输出与排序信号的位置密切相关。
分析流程
DeepLoc2.0使用基于转换器的蛋白质语言模型对输入氨基酸序列进行编码。然后利用可解释的注意力池机制生成序列表示。最后后,两个预测头利用该表示来预测的多个标签,包括10类亚细胞定位和9类分类信号预测任务。
DeepLoc 2.0是一个多标签预测器,这意味着能够预测任何给定蛋白质的一个或多个定位。它可以区分10个不同的定位:细胞核,细胞质,细胞外,线粒体,细胞膜,内质网,叶绿体,高尔基体,溶酶体/液泡和过氧化物酶体。此外,DeepLoc2.0可以预测对亚细胞定位预测有影响的排序信号的存在。
文件准备
这个输入文件只有一个文件可以是蛋白序列文件,例如:
>GLR1_DROME Glutamate receptor 1 OS=Drosophila melanogaster GN=GluRIA PE=1 SV=2 MHSRLKFLAYLHFICASSIFWPEFSSAQTVSLTEKIPLGAIFEQGTDDVQSAFKYAMLNHNLNVSSRRFELQAYVDVINTADAFKLSRLICNQFSRGVYSMLGAVSPDSFDTLHSYSNTFQMPFVTPWFPEKVLAPSSGLLDFAISMRPDYHQAIIDTIQYYGWQSIIYLYDSHDGLLRLIYQELKPGNETFRVQMVKRIANVTMAIEFLHTLEDLGRFSKKRIVLDCPAEMAKEIIVQHVRDIKLGRRTYHYLLSGLVMDNHWPSDVVEFGAINITGFRIVDSNRRAVRDFHDSRKRLEPSGQSQSQNAGGPNSLPAISAQAALMYDAVFVLVEAFNRILRKKPDQFRSNHLQRRSHGGSSSSSATGTNESSALLDCNTSKGWVTPWEQGEKISRVLRKVEIDGLSGEIRFDEDGRRINYTLHVVEMSVNSTLVAEWRDDAGLLPLHSHNYASSSRSASASTGDYDRNHTYIVSSLLEEPYLSLKQYTYGESLVGNDRFEGYCKDLADMLAAQLGIKYEIRLVQDGNYGAENQYAPGGWDGMVGELIRKEADIAISAMTITAERERVIDFSKPFMTLGISIMIKKPVKQTPGVFSFLNPLSQEIWISVILSYVGVSFVLYFVTRFPPYEWRIVRRPQADSTAPPGIIGGATLSEPQAHVPPVPPNEFTMLNSFWYSLAAFMGCDITPPSIAGRIAAAVWWFFTIILISSYTANLAAFLTVERMVAPIKTPEDLTMQTDVNYGTLLYGSTWEFFRRSQIGLHNKMWEYMNANQHHSVHTYDEGIRRVRQSKGKYALLVESPKNEYVNARPPCDTMKVGRNIDTKGFGVATPIGSPLRKRLNEAVLTLKENGELLRIRNKWWFDKTECNLDQETSTPNELSLSNVAGIYYILIGGLLLAVIVAIMEFFCRNKTPQLKSPGSNGSAGGVPGMLASSTYQRDSLSDAIMHSQAKLAMQASSEYDERLVGVELASNVRYQYSM
在线分析
在线网址[DeepLoc]https://services.healthtech.dtu.dk/services/DeepLoc-2.0/),在线使用还是非常简单,序列少可以优先选择在线操作。
线上分析对数据量要求有一定局限性:
粘贴或上传蛋白质序列以fasta格式预测亚细胞定位。最多允许500个序列。根据所选择的模型,每个序列的预测可能需要几秒钟。蛋白质序列应不少于10个且不多于6000个氨基酸。请注意,长度超过4000(慢模式)或1022(快模式)的序列将被截断。截断发生在序列的中间。
粘贴序列测试结果:
本地分析
软件包安装
软件包下载需要输入邮箱,这里由于没有学院类邮箱,
因此可以考虑在GitHub上DeepLoc-2.0下载,主要是python的编写可以下载到脚本就可以。然后解压文件,可以看到包括的文件有:
“data_files”文件夹包含用于训练
- multisub_5_partitions_unique.csv:用于亚细胞定位的注释SwissProt序列、标签和分区;
- multisub_ninesignals.pkl, sorting_signals.csv:注释的SwissProt序列和排序信号注释;
- 处理FASTA文件以生成嵌入。
模型有两种型号,称为Fast (ESM1b)和Accurate (ProtT5),指的是其中之一。
安装软件包需要conda环境,提前配置即可。
conda env create -f environment.yml
测试是否安装成功:
usage: train_sl.py [-h] [-m {Accurate,Fast}] optional arguments: -h, --help show this help message and exit -m {Accurate,Fast}, --model {Accurate,Fast} Model to use.
usage: train_ss.py [-h] [-m {Accurate,Fast}] optional arguments: -h, --help show this help message and exit -m {Accurate,Fast}, --model {Accurate,Fast} Model to use.
实际操作
1. 参数说明
测试数据分两个步骤:
第一步
- 生成和存储嵌入更快的训练。注:约30- 40gb的h5文件存储在“data_files/embeddings”中;
- 训练亚细胞定位和可解释注意力;
- 为排序信号预测生成预测和中间表示;
- 在SwissProt CV数据集上计算指标。
python3 train_sl.py --model <MODEL-TYPE>
第二步
- 训练排序信号预测;
- 在SwissProt CV数据集上预测和计算指标。
python3 train_ss.py -h --model <MODEL-TYPE>
2. 实际操作命令如下:
测试例子来自在线分析上的一个序列,基于蛋白质基础模型的多标签亚细胞定位与分类信号预测。
结果解读
生产结果文件:
Protein_ID Localizations Signals Cytoplasm Nucleus Extracellular Cell membrane Mitochondrion Plastid Endoplasmic reticulum Lysosome/Vacuole Golgi apparatus Peroxisome GLR1_DROME Cell membrane Signal peptide|Transmembrane domain 0. 0.0 0.0 0. 0.0 0. 0. 0. 0. 0.0462
以及排序信号重要性显示了查询蛋白中对预测具有较高重要性且与排序信号高度相关的位置的标志状图。
Reference
Vineet Thumuluri, José Juan Almagro Armenteros, Alexander Rosenberg Johansen, Henrik Nielsen, Ole Winther, DeepLoc 2.0: multi-label subcellular localization prediction using protein language models, Nucleic Acids Research, Volume 50, Issue W1, 5 July 2022, Pages W228–W234.
桓峰基因,铸造成功的您!
未来桓峰基因公众号将不间断的推出单细胞系列生信分析教程,
敬请期待!!
桓峰基因官网正式上线,请大家多多关注,还有很多不足之处,大家多多指正!http://www.kyohogene.com/
桓峰基因和投必得合作,文章润色优惠85折,需要文章润色的老师可以直接到网站输入领取桓峰基因专属优惠券码:KYOHOGENE,然后上传,付款时选择桓峰基因优惠券即可享受85折优惠哦!https://www.topeditsci.com/
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ji-chu/104283.html