這一推送將簡單介紹:
1. 尋找蛋白質結構域
2. 簡單預測序列的理化性質
4. 預測蛋白酶降解位點
5. 預測捲曲螺旋區域(coiled-coil domains)
6. 預測翻譯後修飾
再介紹之前說過的網站,這一章會用到很多次:
ExPASy
https://www.expasy.org/
一、預測蛋白質的理化性質和酶解位點
1. 理化性質
利用ExPASy網站中的ProtParam工具(tools欄下面),可以簡單的分析一個氨基酸序列的理化性質。
打開ProtParam後,可以輸入要查的已上傳序列的序列號或者直接粘貼氨基酸序列(如果你的序列是FASTA格式,不要粘貼首行的“>等”信息)。
上圖就是結果顯示頁面,我用黃色熒光筆標的N,C-terminal是指,如果你只想顯示這段序列的某一部分的結果,可以在框裏限定範圍。
結果顯示這裏點進去(黃色標記部分),可以展示對應的更多的信息。比如:
氨基酸數
分子量(僅根據序列殘基計算得到的,計算結果不包含糖基化、磷酸化等翻譯後修飾;成熟蛋白質前導肽的刪除;多聚體形成等)
等電點
原子組成
原子數
消光係數(是指蛋白質對特定波長的光的吸收量,後期用分光光度計測定得到純化蛋白濃度等可能會用到,網頁顯示的是理論消光係數,真實值還會受其他因素影響。不過一般情況下,兩值相差不大。)
不穩定性係數(一般這個指數小於40,則說明穩定;大於40不穩定)
脂溶指數(Instability index)
總平均親水性(Grand average of hydropathicity (GRAVY),定義爲序列中所有氨基酸親水值的總和與氨基酸數量的比值,負值越大表示親水性越好好,正值越大表示疏水性越強)。
2. 酶解位點
依舊是ExPASy-proteomic-tool裏面的工具—— PeptideCutter 。
二、預測蛋白質初級結構(一級結構-primary structure)
注意這裏分析預測的是初級結構,即對蛋白質氨基酸序列的分析,而非二級結構、高級結構等。分析序列初級結構是爲了找到蛋白質中特殊組成的片段,這些片段可以揭示蛋白質的一些有趣的性質,比如氨基酸序列的疏水區域(蛋白跨膜區域,可將自身錨定在膜中);捲曲螺旋區域(許多含有捲曲螺旋結構的蛋白質具有重要的生物學功能,暗示存在蛋白質-蛋白質互作)。
1. 尋找跨膜片段
預測蛋白序列中的跨膜片段可以告訴我們很多信息,比如在N端有一個跨膜片段的可能是分泌蛋白;如果一個蛋白序列包含很多跨膜區域,它可能是一個通道蛋白。下面介紹兩種方法:
(1)Protscale
原理是滑動窗口(sliding-window)判斷蛋白質序列的疏水性,返回的結果也是疏水性曲線(親水用負值表示,疏水用正值表示),需要我們自己進行分析。
https://web.expasy.org/cgi-bin/protscale/protscale.pl
首先打開網頁,以序列號爲P78588的蛋白質爲例(目前的研究已知它有7個跨膜片段)。
選擇這個Hphob. / Kyte & Doolittle或者Eisenberg et al.,比較適合查找序列中的跨膜片段。
選擇window size是19,適合尋找跨膜結構域(這個大小根據你要查找的結構域的一般大小進行設定,比如跨膜結構域一般爲21aa,所以這裏我們設置的值爲19)。然後點擊submit就可以啦。
結果顯示如下,點擊進去看,可以看到詳細的結果和繪製的圖片。
Hphob. / Kyte & Doolittle
(一般以1.6 score爲準線)
Hphob. / Eisenberg et al.
(一般以0.4 score 爲準線)
輸出結果是疏水性曲線,我們只根據強信號判斷跨膜片段所在的位置,兩個不同的表,計算出來的曲線的強信號位置差別不大,其中有六個預測的片段位置可以比較確定,1個不能準確預測。
(2)TMHMM
基於 HMM 方法的蛋白質跨膜區預測工具,不是在ExPASy網站中,而是CBS的網站。CBS同樣有着很多好用的序列分析的工具:
https://services.healthtech.dtu.dk/
這裏面找到TMHMM:
https://services.healthtech.dtu.dk/service.php?TMHMM-2.0
我們粘貼蛋白質P78588的FASTA格式,提交。
可以看出來,使用滑動窗口原理的Protscale與使用隱馬爾科夫模型的TMHMM得到的結果可以大致對應的上。而且TMHMM除了可以預測跨膜片段外,還可以預測某段蛋白是在胞內還是胞外(有的預測也不是很精確,比如234-255aa就沒有描述胞內外)。
如果是要獲得精準的蛋白跨膜片段的預測,建議使用原理不同的方法進行預測和總結。
2. 尋找捲曲螺旋區域
捲曲螺旋區域常參與蛋白質的互作。可以利用ExPASy-COILS工具進行查找。
https://embnet.vital-it.ch/software/COILS_form.html
三、預測蛋白質翻譯後修飾
蛋白質在發揮生物學功能之前一般需要經過修飾,叫做post-translational modifications(PTM)。修飾包括加官能團、改變氨基酸化學性質或者改變結構,PTM是細胞信號傳導中的重要組成部分。
加入官能團
乙酰化、烷基化、生物素化、穀氨酸化、甘氨酸化、糖化、異戊二烯化、硫辛酸化、磷酸泛酰巰基乙氨基化、磷酸化、硫酸化、硒化、C末端酰胺化
加入其他蛋白質或肽
干擾素激活基因化、小泛素相關修飾化、泛素化
改變氨基酸的化學性質
瓜氨化、脫氨化
結構改變
雙硫鍵、分解蛋白質
尋找PROSITE patterns
使用ExPASy網站的PROSITE工具。值得注意的是,有時候對應的是短序列(小於20aa的對應),其功能不一定就是那個,查找結果僅是一個預測。對應的越長,功能也一致的可能性越高。
下面就打開網頁開始吧:
https://prosite.expasy.org/scanprosite/
可以看到有三個選擇對應不同的目的,我們以P12259爲例。
這個工具的使用手冊在這裏:
https://prosite.expasy.org/scanprosite/scanprosite_doc.html
讀一讀,方便看懂檢索設置和結果頁面。結果中展示的都可以點進去,展開詳細信息。
剛剛看到ExPASy首頁說10月15要更新網站,界面改版。我想,操作上不會差太多的,只會更加便捷和簡約。
四、尋找蛋白質中的已知結構域(domian)
結構域是蛋白質的結構單元,是構成三級結構的獨立單元。一般蛋白質由2-3個結構域組成,通常結構域有特定功能:可能與其他蛋白質互作、結合離子、具有活性位點等。
網上有很多查找結構域的工具,各有優缺點,最好都試一試,然後綜合一下結果。
1. 使用InterProScan
http://www.ebi.ac.uk/interpro/search/sequence/
我們以這個蛋白質爲例(P53539),有一些高級選項,默認檢索數據庫是全部勾選的,分析時間會有點長。
結果顯示如下,可以看見在各個數據庫中的結果都顯示序列中間有亮氨酸拉鍊(Leucine zippers),所以這個結果比較可靠。所以分析序列的時候,最好選擇很多檢索數據庫,且確定前最好再比較一下序列。
2. 使用CD server(Conserved Domain)
https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi
CD的一個有點就是展示出的結果有打分和序列比對的展示,可以幫助我們判斷結果可靠性,但是CD數據庫中的數據不如上一個全。分析設定上默認Evalue是0.01,如果檢索結果很少,可以改爲1放寬要求。Apply low-complexity filter一般也不勾選,否則可能過濾掉很多信息。
3. 使用Motif Scan
https://myhits.sib.swiss/cgi-bin/motif_scan
這個裏面包含數據更多,下面我們來看一看。
Match Map顯示了結構域再序列中的對應位置。下面有詳細的得分,Evalue和圖等信息。
其詳細結果顯示不按照得分高低排列,比較確定的結構域有個感嘆號,不確定的是問號。點擊match detail有不同顏色bar的解釋。
六、其他網站推薦
CBS
http://www.cbs.dtu.dk/services/
Hits
https://myhits.sib.swiss/
InterPro
https://www.ebi.ac.uk/interpro/
往期相關內容:
【陪你學·生信】五、當你有一段待分析的DNA序列(基礎操作介紹)