【陪你学·生信】六、当你有一段待分析的氨基酸序列

这一推送将简单介绍

1. 寻找蛋白质结构域

2. 简单预测序列的理化性质

4. 预测蛋白酶降解位点

5. 预测卷曲螺旋区域(coiled-coil domains)

6. 预测翻译后修饰

再介绍之前说过的网站,这一章会用到很多次:

ExPASy

https://www.expasy.org/

一、预测蛋白质的理化性质和酶解位点

1. 理化性质

利用ExPASy网站中的ProtParam工具(tools栏下面),可以简单的分析一个氨基酸序列的理化性质。

打开ProtParam后,可以输入要查的已上传序列的序列号或者直接粘贴氨基酸序列(如果你的序列是FASTA格式,不要粘贴首行的“>等”信息)。

上图就是结果显示页面,我用黄色荧光笔标的N,C-terminal是指,如果你只想显示这段序列的某一部分的结果,可以在框里限定范围。

结果显示这里点进去(黄色标记部分),可以展示对应的更多的信息。比如:

氨基酸数

分子量(仅根据序列残基计算得到的,计算结果不包含糖基化、磷酸化等翻译后修饰;成熟蛋白质前导肽的删除;多聚体形成等)

等电点

原子组成

原子数

消光系数(是指蛋白质对特定波长的光的吸收量,后期用分光光度计测定得到纯化蛋白浓度等可能会用到,网页显示的是理论消光系数,真实值还会受其他因素影响。不过一般情况下,两值相差不大。)

不稳定性系数(一般这个指数小于40,则说明稳定;大于40不稳定)

脂溶指数(Instability index)

总平均亲水性(Grand average of hydropathicity (GRAVY),定义为序列中所有氨基酸亲水值的总和与氨基酸数量的比值,负值越大表示亲水性越好好,正值越大表示疏水性越强)。

2. 酶解位点

依旧是ExPASy-proteomic-tool里面的工具—— PeptideCutter 。

二、预测蛋白质初级结构(一级结构-primary structure)

注意这里分析预测的是初级结构,即对蛋白质氨基酸序列的分析,而非二级结构、高级结构等。分析序列初级结构是为了找到蛋白质中特殊组成的片段,这些片段可以揭示蛋白质的一些有趣的性质,比如氨基酸序列的疏水区域(蛋白跨膜区域,可将自身锚定在膜中);卷曲螺旋区域(许多含有卷曲螺旋结构的蛋白质具有重要的生物学功能,暗示存在蛋白质-蛋白质互作)。

1. 寻找跨膜片段

预测蛋白序列中的跨膜片段可以告诉我们很多信息,比如在N端有一个跨膜片段的可能是分泌蛋白;如果一个蛋白序列包含很多跨膜区域,它可能是一个通道蛋白。下面介绍两种方法:

(1)Protscale

原理是滑动窗口(sliding-window)判断蛋白质序列的疏水性,返回的结果也是疏水性曲线(亲水用负值表示,疏水用正值表示),需要我们自己进行分析。

https://web.expasy.org/cgi-bin/protscale/protscale.pl

首先打开网页,以序列号为P78588的蛋白质为例(目前的研究已知它有7个跨膜片段)。

选择这个Hphob. / Kyte & Doolittle或者Eisenberg et al.,比较适合查找序列中的跨膜片段。


选择window size是19,适合寻找跨膜结构域(这个大小根据你要查找的结构域的一般大小进行设定,比如跨膜结构域一般为21aa,所以这里我们设置的值为19)。然后点击submit就可以啦。

结果显示如下,点击进去看,可以看到详细的结果和绘制的图片。

Hphob. / Kyte & Doolittle

(一般以1.6 score为准线)

Hphob. / Eisenberg et al.

(一般以0.4 score 为准线)

输出结果是疏水性曲线,我们只根据强信号判断跨膜片段所在的位置,两个不同的表,计算出来的曲线的强信号位置差别不大,其中有六个预测的片段位置可以比较确定,1个不能准确预测。

(2)TMHMM

基于 HMM 方法的蛋白质跨膜区预测工具,不是在ExPASy网站中,而是CBS的网站。CBS同样有着很多好用的序列分析的工具:

https://services.healthtech.dtu.dk/

这里面找到TMHMM:

https://services.healthtech.dtu.dk/service.php?TMHMM-2.0

我们粘贴蛋白质P78588的FASTA格式,提交。

可以看出来,使用滑动窗口原理的Protscale与使用隐马尔科夫模型的TMHMM得到的结果可以大致对应的上。而且TMHMM除了可以预测跨膜片段外,还可以预测某段蛋白是在胞内还是胞外(有的预测也不是很精确,比如234-255aa就没有描述胞内外)。

如果是要获得精准的蛋白跨膜片段的预测,建议使用原理不同的方法进行预测和总结。

2. 寻找卷曲螺旋区域

卷曲螺旋区域常参与蛋白质的互作。可以利用ExPASy-COILS工具进行查找。

https://embnet.vital-it.ch/software/COILS_form.html

三、预测蛋白质翻译后修饰

蛋白质在发挥生物学功能之前一般需要经过修饰,叫做post-translational modifications(PTM)。修饰包括加官能团、改变氨基酸化学性质或者改变结构,PTM是细胞信号传导中的重要组成部分。

加入官能团

乙酰化、烷基化、生物素化、谷氨酸化、甘氨酸化、糖化、异戊二烯化、硫辛酸化、磷酸泛酰巯基乙氨基化、磷酸化、硫酸化、硒化、C末端酰胺化

加入其他蛋白质或肽

干扰素激活基因化、小泛素相关修饰化、泛素化

改变氨基酸的化学性质

瓜氨化、脱氨化

结构改变

双硫键、分解蛋白质

寻找PROSITE patterns

使用ExPASy网站的PROSITE工具。值得注意的是,有时候对应的是短序列(小于20aa的对应),其功能不一定就是那个,查找结果仅是一个预测。对应的越长,功能也一致的可能性越高。

下面就打开网页开始吧:

https://prosite.expasy.org/scanprosite/

可以看到有三个选择对应不同的目的,我们以P12259为例。

这个工具的使用手册在这里:

https://prosite.expasy.org/scanprosite/scanprosite_doc.html

读一读,方便看懂检索设置和结果页面。结果中展示的都可以点进去,展开详细信息。

刚刚看到ExPASy首页说10月15要更新网站,界面改版。我想,操作上不会差太多的,只会更加便捷和简约。

四、寻找蛋白质中的已知结构域(domian)

结构域是蛋白质的结构单元,是构成三级结构的独立单元。一般蛋白质由2-3个结构域组成,通常结构域有特定功能:可能与其他蛋白质互作、结合离子、具有活性位点等。

网上有很多查找结构域的工具,各有优缺点,最好都试一试,然后综合一下结果。

1. 使用InterProScan

http://www.ebi.ac.uk/interpro/search/sequence/

我们以这个蛋白质为例(P53539),有一些高级选项,默认检索数据库是全部勾选的,分析时间会有点长。

结果显示如下,可以看见在各个数据库中的结果都显示序列中间有亮氨酸拉链(Leucine zippers),所以这个结果比较可靠。所以分析序列的时候,最好选择很多检索数据库,且确定前最好再比较一下序列。

2. 使用CD server(Conserved Domain)

https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi

CD的一个有点就是展示出的结果有打分和序列比对的展示,可以帮助我们判断结果可靠性,但是CD数据库中的数据不如上一个全。分析设定上默认Evalue是0.01,如果检索结果很少,可以改为1放宽要求。Apply low-complexity filter一般也不勾选,否则可能过滤掉很多信息。

3. 使用Motif Scan

https://myhits.sib.swiss/cgi-bin/motif_scan

这个里面包含数据更多,下面我们来看一看。

Match Map显示了结构域再序列中的对应位置。下面有详细的得分,Evalue和图等信息。

其详细结果显示不按照得分高低排列,比较确定的结构域有个感叹号,不确定的是问号。点击match detail有不同颜色bar的解释。

六、其他网站推荐

CBS

http://www.cbs.dtu.dk/services/

Hits

https://myhits.sib.swiss/

InterPro

https://www.ebi.ac.uk/interpro/

往期相关内容:

【陪你学·生信】序

【陪你学·生信】一、生信能帮我们做什么

【陪你学·生信】二、一些你肯定会用到的生信工具和基本操作

【陪你学·生信】三、核苷酸序列数据库的使用

【陪你学·生信】四、蛋白质相关的数据库

【陪你学·生信】五、当你有一段待分析的DNA序列(基础操作介绍)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章