蛋白生信分析进阶篇蛋白初级结构分析

蛋白生信分析进阶篇:蛋白初级结构分析

以下文章来源于i生信 ,作者何弃聊
i生信 专注生物分析最前沿,定期为大家解读最新高分经典生信文章,为大家提供生信分析思路和套路,方便大家短平快发SCI。

作为生命活动的具体执行者,蛋白质自然是生命科学研究的重点。然而,蛋白质的结构多种多样、功能变化多端、胞内走位风骚、互作伴侣无数,不知虐哭了多少科研汪。那么,面对一个素未谋面的蛋白,如何能快速的了解它的前世今生并预测其未来呢?

这里,我将介绍一整套流程,带领科研汪们优雅地将陌生蛋白按在地上摩擦。

我以一篇发表于《Science》(PMID : 27708039)文章,大部分人都不熟悉的蛋白SagA为例,分两个专题,蛋白初级结构分析(进阶篇)以及三级结构分析和功能预测(高级篇),介绍蛋白质生物信息学分析的一整套流程。至于同源序列查询与比对(基础篇)公众号之前介绍过很多,此处就不再赘述,参考一大波工具、数据库丢你一脸;这是一个神奇的网站:UCSC Genome Brower;(工具篇):对方又向你扔了一个神器……;如何获取蛋白序列并进行序列比对?;多篇高分文章都用到这个工具,你不了解一下吗?

本期笔者将从蛋白结构入手,解析蛋白的初级结构。1、跨膜段预测了解目的蛋白是胞内蛋白、跨膜蛋白还是胞外蛋白对于我们推测蛋白的作用十分有帮助,这里介绍两款跨膜段预测软件。1.1 TMPRED:https://embnet.vital-it.ch/software/TMPRED_form.html检索界面非常简单,输入蛋白FASTA序列即可。
结果界面:直接看”strongly preferred model”,这里提示N端存在胞内段,从5-27位氨基酸有一段由胞内向胞外的跨膜段(Score500才有意义)。因此SagA可能具有一个跨膜段。
1.2 TMHMM:http://www.cbs.dtu.dk/services/TMHMM/检索界面,输入FASTA序列,提交。
结果界面非常直观,如下图,在1-4氨基酸是蓝色(inside,胞内段),5-27是红色(transmembrane,跨膜段),27以后紫红色(outside,胞外段)。与TMPRED的预测结果一致。
2、信号肽预测网址:http://www.cbs.dtu.dk/services/SignalP/。跨膜蛋白如果存在信号肽,它会在信号肽处切割,产生一段胞外分泌蛋白,这能帮我们预测蛋白的作用方式;另一方面,信号肽会影响重组蛋白的表达,如果想要构建重组蛋白,先预测信号肽位置,设计PCR引物时,去掉信号肽片段。检索界面,输入FASTA序列,选择正确的分类(此处为革兰阳性菌),提交。
如果存在信号肽,会给出切割位点(cleavage site,如下图绿色虚线)。可以直观的根据是否存在绿色虚线峰来判断有无信号肽以及及切割位点。这里的SagA在20-30氨基酸的位置有信号肽切割位点,这与前面预测的5-27为跨膜段的结果对应,共同提示SagA是一种分泌蛋白。
除了上述的两个网站外,还有些网站可以预测蛋白的亚细胞定位,比较强大的是“Compartments”,网址https://compartments.jensenlab.org/Search。因为Sag为细菌蛋白,此处没有查询其亚细胞定位情况,大家可以用“Compartments”查询真核蛋白的亚细胞定位。3、蛋白保守结构域查询蛋白的保守结构域通常就是其功能域,对于蛋白功能有很强的提示作用,这里给大家推荐2个极好用的保守结构域预测网站。3.1 Pfam在线工具,http://pfam.xfam.org/search检索界面:可以直接粘贴FASTA序列,也可以通过文件批量提交蛋白序列(支持邮件返回结果)。
结果界面:这里的Clan相当于保守序列超家族的意思,其它不必多做介绍了,可以看到Pfam预测出C端422-518氨基酸位置有一个NLPC/P60保守序列,文献检索提示NLPC/P60与肽聚糖水解相关。
3.2 NCBI-CD:https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi在检索框中输入蛋白序列,提交,进入结果界面。
结果的第一部分给出了蛋白的保守结构域分布情况,这里SagA有两个保守结构域,分别位于N端的1-225位氨基酸(cwlo1),以及C端的422-514位氨基酸(NLPC/P60),另外存在一个保守结构域超家族(301-505)。可见多个软件联合预测还是必要的,能有效避免遗漏。
结果的第二部分具体介绍保守结构域相关信息。点开蓝色Assession,可以进入到对保守序列功能的详细介绍。从信息中我们推测SagA可能是一种肽聚糖水解酶。
4、含相似保守结构域的蛋白搜索CDART网址:https://www.ncbi.nlm.nih.gov/Structure/lexington/lexington.cgi?cmd=rps。寻找与目标蛋白具有相同保守结构域的其他蛋白,能有效将我们的研究结果扩展开来,找到功能相近的其它蛋白,妥妥的又是一把科研题材!如下图,输入蛋白序列,进入结果界面。结果根据保守结构域的不同组合分类,并在每一类左侧展现与目标蛋白保守结构域的相似评分,以及匹配蛋白条数。
点击“Lookup sequence in Entrez”即可看到这些蛋白的信息。还可通过左侧和右侧工具条限定物种、来源蛋白库、序列长度和感兴趣的种属等信息。
封面图来自网络

赞(0)
未经允许不得转载:第一SCI网 » 蛋白生信分析进阶篇蛋白初级结构分析

评论 抢沙发

评论前必须登录!