【陪你學·生信】六、當你有一段待分析的氨基酸序列

這一推送將簡單介紹

1. 尋找蛋白質結構域

2. 簡單預測序列的理化性質

4. 預測蛋白酶降解位點

5. 預測捲曲螺旋區域(coiled-coil domains)

6. 預測翻譯後修飾

再介紹之前說過的網站,這一章會用到很多次:

ExPASy

https://www.expasy.org/

一、預測蛋白質的理化性質和酶解位點

1. 理化性質

利用ExPASy網站中的ProtParam工具(tools欄下面),可以簡單的分析一個氨基酸序列的理化性質。

打開ProtParam後,可以輸入要查的已上傳序列的序列號或者直接粘貼氨基酸序列(如果你的序列是FASTA格式,不要粘貼首行的“>等”信息)。

上圖就是結果顯示頁面,我用黃色熒光筆標的N,C-terminal是指,如果你只想顯示這段序列的某一部分的結果,可以在框裏限定範圍。

結果顯示這裏點進去(黃色標記部分),可以展示對應的更多的信息。比如:

氨基酸數

分子量(僅根據序列殘基計算得到的,計算結果不包含糖基化、磷酸化等翻譯後修飾;成熟蛋白質前導肽的刪除;多聚體形成等)

等電點

原子組成

原子數

消光係數(是指蛋白質對特定波長的光的吸收量,後期用分光光度計測定得到純化蛋白濃度等可能會用到,網頁顯示的是理論消光係數,真實值還會受其他因素影響。不過一般情況下,兩值相差不大。)

不穩定性係數(一般這個指數小於40,則說明穩定;大於40不穩定)

脂溶指數(Instability index)

總平均親水性(Grand average of hydropathicity (GRAVY),定義爲序列中所有氨基酸親水值的總和與氨基酸數量的比值,負值越大表示親水性越好好,正值越大表示疏水性越強)。

2. 酶解位點

依舊是ExPASy-proteomic-tool裏面的工具—— PeptideCutter 。

二、預測蛋白質初級結構(一級結構-primary structure)

注意這裏分析預測的是初級結構,即對蛋白質氨基酸序列的分析,而非二級結構、高級結構等。分析序列初級結構是爲了找到蛋白質中特殊組成的片段,這些片段可以揭示蛋白質的一些有趣的性質,比如氨基酸序列的疏水區域(蛋白跨膜區域,可將自身錨定在膜中);捲曲螺旋區域(許多含有捲曲螺旋結構的蛋白質具有重要的生物學功能,暗示存在蛋白質-蛋白質互作)。

1. 尋找跨膜片段

預測蛋白序列中的跨膜片段可以告訴我們很多信息,比如在N端有一個跨膜片段的可能是分泌蛋白;如果一個蛋白序列包含很多跨膜區域,它可能是一個通道蛋白。下面介紹兩種方法:

(1)Protscale

原理是滑動窗口(sliding-window)判斷蛋白質序列的疏水性,返回的結果也是疏水性曲線(親水用負值表示,疏水用正值表示),需要我們自己進行分析。

https://web.expasy.org/cgi-bin/protscale/protscale.pl

首先打開網頁,以序列號爲P78588的蛋白質爲例(目前的研究已知它有7個跨膜片段)。

選擇這個Hphob. / Kyte & Doolittle或者Eisenberg et al.,比較適合查找序列中的跨膜片段。


選擇window size是19,適合尋找跨膜結構域(這個大小根據你要查找的結構域的一般大小進行設定,比如跨膜結構域一般爲21aa,所以這裏我們設置的值爲19)。然後點擊submit就可以啦。

結果顯示如下,點擊進去看,可以看到詳細的結果和繪製的圖片。

Hphob. / Kyte & Doolittle

(一般以1.6 score爲準線)

Hphob. / Eisenberg et al.

(一般以0.4 score 爲準線)

輸出結果是疏水性曲線,我們只根據強信號判斷跨膜片段所在的位置,兩個不同的表,計算出來的曲線的強信號位置差別不大,其中有六個預測的片段位置可以比較確定,1個不能準確預測。

(2)TMHMM

基於 HMM 方法的蛋白質跨膜區預測工具,不是在ExPASy網站中,而是CBS的網站。CBS同樣有着很多好用的序列分析的工具:

https://services.healthtech.dtu.dk/

這裏面找到TMHMM:

https://services.healthtech.dtu.dk/service.php?TMHMM-2.0

我們粘貼蛋白質P78588的FASTA格式,提交。

可以看出來,使用滑動窗口原理的Protscale與使用隱馬爾科夫模型的TMHMM得到的結果可以大致對應的上。而且TMHMM除了可以預測跨膜片段外,還可以預測某段蛋白是在胞內還是胞外(有的預測也不是很精確,比如234-255aa就沒有描述胞內外)。

如果是要獲得精準的蛋白跨膜片段的預測,建議使用原理不同的方法進行預測和總結。

2. 尋找捲曲螺旋區域

捲曲螺旋區域常參與蛋白質的互作。可以利用ExPASy-COILS工具進行查找。

https://embnet.vital-it.ch/software/COILS_form.html

三、預測蛋白質翻譯後修飾

蛋白質在發揮生物學功能之前一般需要經過修飾,叫做post-translational modifications(PTM)。修飾包括加官能團、改變氨基酸化學性質或者改變結構,PTM是細胞信號傳導中的重要組成部分。

加入官能團

乙酰化、烷基化、生物素化、穀氨酸化、甘氨酸化、糖化、異戊二烯化、硫辛酸化、磷酸泛酰巰基乙氨基化、磷酸化、硫酸化、硒化、C末端酰胺化

加入其他蛋白質或肽

干擾素激活基因化、小泛素相關修飾化、泛素化

改變氨基酸的化學性質

瓜氨化、脫氨化

結構改變

雙硫鍵、分解蛋白質

尋找PROSITE patterns

使用ExPASy網站的PROSITE工具。值得注意的是,有時候對應的是短序列(小於20aa的對應),其功能不一定就是那個,查找結果僅是一個預測。對應的越長,功能也一致的可能性越高。

下面就打開網頁開始吧:

https://prosite.expasy.org/scanprosite/

可以看到有三個選擇對應不同的目的,我們以P12259爲例。

這個工具的使用手冊在這裏:

https://prosite.expasy.org/scanprosite/scanprosite_doc.html

讀一讀,方便看懂檢索設置和結果頁面。結果中展示的都可以點進去,展開詳細信息。

剛剛看到ExPASy首頁說10月15要更新網站,界面改版。我想,操作上不會差太多的,只會更加便捷和簡約。

四、尋找蛋白質中的已知結構域(domian)

結構域是蛋白質的結構單元,是構成三級結構的獨立單元。一般蛋白質由2-3個結構域組成,通常結構域有特定功能:可能與其他蛋白質互作、結合離子、具有活性位點等。

網上有很多查找結構域的工具,各有優缺點,最好都試一試,然後綜合一下結果。

1. 使用InterProScan

http://www.ebi.ac.uk/interpro/search/sequence/

我們以這個蛋白質爲例(P53539),有一些高級選項,默認檢索數據庫是全部勾選的,分析時間會有點長。

結果顯示如下,可以看見在各個數據庫中的結果都顯示序列中間有亮氨酸拉鍊(Leucine zippers),所以這個結果比較可靠。所以分析序列的時候,最好選擇很多檢索數據庫,且確定前最好再比較一下序列。

2. 使用CD server(Conserved Domain)

https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi

CD的一個有點就是展示出的結果有打分和序列比對的展示,可以幫助我們判斷結果可靠性,但是CD數據庫中的數據不如上一個全。分析設定上默認Evalue是0.01,如果檢索結果很少,可以改爲1放寬要求。Apply low-complexity filter一般也不勾選,否則可能過濾掉很多信息。

3. 使用Motif Scan

https://myhits.sib.swiss/cgi-bin/motif_scan

這個裏面包含數據更多,下面我們來看一看。

Match Map顯示了結構域再序列中的對應位置。下面有詳細的得分,Evalue和圖等信息。

其詳細結果顯示不按照得分高低排列,比較確定的結構域有個感嘆號,不確定的是問號。點擊match detail有不同顏色bar的解釋。

六、其他網站推薦

CBS

http://www.cbs.dtu.dk/services/

Hits

https://myhits.sib.swiss/

InterPro

https://www.ebi.ac.uk/interpro/

往期相關內容:

【陪你學·生信】序

【陪你學·生信】一、生信能幫我們做什麼

【陪你學·生信】二、一些你肯定會用到的生信工具和基本操作

【陪你學·生信】三、核苷酸序列數據庫的使用

【陪你學·生信】四、蛋白質相關的數據庫

【陪你學·生信】五、當你有一段待分析的DNA序列(基礎操作介紹)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章