【陪你學·生信】六、當你有一段待分析的氨基酸序列

這一推送將簡單介紹：

1. 尋找蛋白質結構域

2. 簡單預測序列的理化性質

4. 預測蛋白酶降解位點

5. 預測捲曲螺旋區域（coiled-coil domains）

6. 預測翻譯後修飾

再介紹之前說過的網站，這一章會用到很多次：

ExPASy

https://www.expasy.org/

一、預測蛋白質的理化性質和酶解位點

1. 理化性質

利用ExPASy網站中的ProtParam工具（tools欄下面），可以簡單的分析一個氨基酸序列的理化性質。

打開ProtParam後，可以輸入要查的已上傳序列的序列號或者直接粘貼氨基酸序列（如果你的序列是FASTA格式，不要粘貼首行的“>等”信息）。

上圖就是結果顯示頁面，我用黃色熒光筆標的N,C-terminal是指，如果你只想顯示這段序列的某一部分的結果，可以在框裏限定範圍。

結果顯示這裏點進去（黃色標記部分），可以展示對應的更多的信息。比如：

氨基酸數

分子量（僅根據序列殘基計算得到的，計算結果不包含糖基化、磷酸化等翻譯後修飾；成熟蛋白質前導肽的刪除；多聚體形成等）

等電點

原子組成

原子數

消光係數（是指蛋白質對特定波長的光的吸收量，後期用分光光度計測定得到純化蛋白濃度等可能會用到，網頁顯示的是理論消光係數，真實值還會受其他因素影響。不過一般情況下，兩值相差不大。）

不穩定性係數（一般這個指數小於40，則說明穩定；大於40不穩定）

脂溶指數（Instability index）

總平均親水性（Grand average of hydropathicity (GRAVY)，定義爲序列中所有氨基酸親水值的總和與氨基酸數量的比值，負值越大表示親水性越好好，正值越大表示疏水性越強）。

2. 酶解位點

依舊是ExPASy-proteomic-tool裏面的工具—— PeptideCutter 。

二、預測蛋白質初級結構（一級結構-primary structure）

注意這裏分析預測的是初級結構，即對蛋白質氨基酸序列的分析，而非二級結構、高級結構等。分析序列初級結構是爲了找到蛋白質中特殊組成的片段，這些片段可以揭示蛋白質的一些有趣的性質，比如氨基酸序列的疏水區域（蛋白跨膜區域，可將自身錨定在膜中）；捲曲螺旋區域（許多含有捲曲螺旋結構的蛋白質具有重要的生物學功能，暗示存在蛋白質-蛋白質互作）。

1. 尋找跨膜片段

預測蛋白序列中的跨膜片段可以告訴我們很多信息，比如在N端有一個跨膜片段的可能是分泌蛋白；如果一個蛋白序列包含很多跨膜區域，它可能是一個通道蛋白。下面介紹兩種方法：

（1）Protscale

原理是滑動窗口（sliding-window）判斷蛋白質序列的疏水性，返回的結果也是疏水性曲線（親水用負值表示,疏水用正值表示），需要我們自己進行分析。

https://web.expasy.org/cgi-bin/protscale/protscale.pl

首先打開網頁，以序列號爲P78588的蛋白質爲例（目前的研究已知它有7個跨膜片段）。

選擇這個Hphob. / Kyte & Doolittle或者Eisenberg et al.，比較適合查找序列中的跨膜片段。

選擇window size是19，適合尋找跨膜結構域（這個大小根據你要查找的結構域的一般大小進行設定，比如跨膜結構域一般爲21aa，所以這裏我們設置的值爲19）。然後點擊submit就可以啦。

結果顯示如下，點擊進去看，可以看到詳細的結果和繪製的圖片。

Hphob. / Kyte & Doolittle

（一般以1.6 score爲準線）

Hphob. / Eisenberg et al.

（一般以0.4 score 爲準線）

輸出結果是疏水性曲線，我們只根據強信號判斷跨膜片段所在的位置，兩個不同的表，計算出來的曲線的強信號位置差別不大，其中有六個預測的片段位置可以比較確定，1個不能準確預測。

（2）TMHMM

基於 HMM 方法的蛋白質跨膜區預測工具，不是在ExPASy網站中，而是CBS的網站。CBS同樣有着很多好用的序列分析的工具：

https://services.healthtech.dtu.dk/

這裏面找到TMHMM：

https://services.healthtech.dtu.dk/service.php?TMHMM-2.0

我們粘貼蛋白質P78588的FASTA格式，提交。

可以看出來，使用滑動窗口原理的Protscale與使用隱馬爾科夫模型的TMHMM得到的結果可以大致對應的上。而且TMHMM除了可以預測跨膜片段外，還可以預測某段蛋白是在胞內還是胞外（有的預測也不是很精確，比如234-255aa就沒有描述胞內外）。

如果是要獲得精準的蛋白跨膜片段的預測，建議使用原理不同的方法進行預測和總結。

2. 尋找捲曲螺旋區域

捲曲螺旋區域常參與蛋白質的互作。可以利用ExPASy-COILS工具進行查找。

https://embnet.vital-it.ch/software/COILS_form.html

三、預測蛋白質翻譯後修飾

蛋白質在發揮生物學功能之前一般需要經過修飾，叫做post-translational modifications（PTM）。修飾包括加官能團、改變氨基酸化學性質或者改變結構，PTM是細胞信號傳導中的重要組成部分。

加入官能團

乙酰化、烷基化、生物素化、穀氨酸化、甘氨酸化、糖化、異戊二烯化、硫辛酸化、磷酸泛酰巰基乙氨基化、磷酸化、硫酸化、硒化、C末端酰胺化

加入其他蛋白質或肽

干擾素激活基因化、小泛素相關修飾化、泛素化

改變氨基酸的化學性質

瓜氨化、脫氨化

結構改變

雙硫鍵、分解蛋白質

尋找PROSITE patterns

使用ExPASy網站的PROSITE工具。值得注意的是，有時候對應的是短序列（小於20aa的對應），其功能不一定就是那個，查找結果僅是一個預測。對應的越長，功能也一致的可能性越高。

下面就打開網頁開始吧：

https://prosite.expasy.org/scanprosite/

可以看到有三個選擇對應不同的目的，我們以P12259爲例。

這個工具的使用手冊在這裏：

https://prosite.expasy.org/scanprosite/scanprosite_doc.html

讀一讀，方便看懂檢索設置和結果頁面。結果中展示的都可以點進去，展開詳細信息。

剛剛看到ExPASy首頁說10月15要更新網站，界面改版。我想，操作上不會差太多的，只會更加便捷和簡約。

四、尋找蛋白質中的已知結構域（domian）

結構域是蛋白質的結構單元，是構成三級結構的獨立單元。一般蛋白質由2-3個結構域組成，通常結構域有特定功能：可能與其他蛋白質互作、結合離子、具有活性位點等。

網上有很多查找結構域的工具，各有優缺點，最好都試一試，然後綜合一下結果。

1. 使用InterProScan

http://www.ebi.ac.uk/interpro/search/sequence/

我們以這個蛋白質爲例（P53539），有一些高級選項，默認檢索數據庫是全部勾選的，分析時間會有點長。

結果顯示如下，可以看見在各個數據庫中的結果都顯示序列中間有亮氨酸拉鍊（Leucine zippers），所以這個結果比較可靠。所以分析序列的時候，最好選擇很多檢索數據庫，且確定前最好再比較一下序列。

2. 使用CD server（Conserved Domain）

https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi

CD的一個有點就是展示出的結果有打分和序列比對的展示，可以幫助我們判斷結果可靠性，但是CD數據庫中的數據不如上一個全。分析設定上默認Evalue是0.01，如果檢索結果很少，可以改爲1放寬要求。Apply low-complexity filter一般也不勾選，否則可能過濾掉很多信息。

3. 使用Motif Scan

https://myhits.sib.swiss/cgi-bin/motif_scan

這個裏面包含數據更多，下面我們來看一看。

Match Map顯示了結構域再序列中的對應位置。下面有詳細的得分，Evalue和圖等信息。

其詳細結果顯示不按照得分高低排列，比較確定的結構域有個感嘆號，不確定的是問號。點擊match detail有不同顏色bar的解釋。

六、其他網站推薦

CBS

http://www.cbs.dtu.dk/services/

Hits

https://myhits.sib.swiss/

InterPro

https://www.ebi.ac.uk/interpro/

往期相關內容：

【陪你學·生信】序

【陪你學·生信】一、生信能幫我們做什麼

【陪你學·生信】二、一些你肯定會用到的生信工具和基本操作

【陪你學·生信】三、核苷酸序列數據庫的使用

【陪你學·生信】四、蛋白質相關的數據庫

【陪你學·生信】五、當你有一段待分析的DNA序列（基礎操作介紹）

【陪你學·生信】六、當你有一段待分析的氨基酸序列

一個簡單的MD5加鹽

C# 代碼學習

藍橋15屆stema編程題密碼鎖-動態規劃 C++和Python最後一道題

2021看雪SDC議題回顧 | SaTC：一種全新的物聯網設備漏洞自動化挖掘方法

Kafka存儲機制

aws語音呼叫調用，告警電話

【轉】[C#] WebAPI 防止併發調用二（冥等性）

C#/.NET/.NET Core優秀項目和框架2024年4月簡報

HTTP URL 詳解

得物 ZooKeeper SLA 也可以 99.99%

【陪你學·R語言繪圖】學術圖表介紹

關於碩博開題

【陪你學·生信】Bioinformatics For Dummies完結撒花

【陪你學·生信】十三、蛋白質3D結構簡單預測

【陪你學·生信】十二、RNA相關的簡單分析

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結