【陪你學·生信】十三、蛋白質3D結構簡單預測

我們關注蛋白質的功能，而結構和功能聯繫緊密。一旦在氨基酸序列水平發現有趣的序列（比如一個模體（motif）或者進化上保守的片段），下一步往往就是研究這段序列的3-D結構。（試圖解決以下問題：這段氨基酸序列是否有助於蛋白質結構的穩定？爲什麼這段序列是保守的（或多變的）？它們在蛋白質表面嗎？直接參與蛋白質功能嗎？與結合其他分子有關嗎？）

蛋白質結構的預測不算一件容易的事，因此還有兩年一次的國際蛋白質結構預測競賽-CASP。今年的第十四屆CASP上，AI又贏得了關注，關於這些可以看我之前寫的小科普【野生小科普】人工智能Alpha AI。AI的加入給結構生物學帶來了新的技術，不過就算是AI也要基於已知的數據訓練，完全基於物理學和化學原理的結構預測還沒有出現。本篇推送即是對基於計算模擬分析蛋白質結構的簡單介紹。

一、從序列到二級結構

當晶體學家第一次觀測蛋白質結構時，他們推測氨基酸序列可通過自身摺疊形成具有生物活性的分子。相鄰的氨基酸形成基礎結構骨幹，序列上距離較遠的殘基也可能在空間上直接接觸，形成最終的3-D結構。

二級結構主要有螺旋（Helices）、摺疊（extended or Beta-strands）和無規則捲曲（Random coils），這些結構往往通過轉角（Turns）相連接。

1. 預測一段蛋白質序列的二級結構

目前有一些很不錯的服務器，基於隱馬爾科夫模型和神經網絡可以準確的預測蛋白質序列的二級結構。

比如下面介紹的PSIPRED

http://bioinf.cs.ucl.ac.uk/psipred/

（還有其他功能，不止是預測二級結構）

這裏舉例序列是：

>NP_360043MRNIIYFILSLLFSVTSYALETINIEHGRADPTPIAVNKFDADNSAADVLGHDMVKVISNDLKLSGLFRPISAASFIEEKTGIEYKPLFAAWRQINASLLVNGEVKKLESGKFKVSFILWDTLLEKQLAGEMLEVPKNLWRRAAHKIADKIYEKITGDAGYFDTKIVYVSESSSLPKIKRIALMDYDGANNKYLTNGKSLVLTPRFARSADKIFYVSYATKRRVLVYEKDLKTGKESVVGDFPGISFAPRFSPDGRKAVMSIAKNGSTHIYEIDLATKQLHKLTDGFGINTSPSYSPDGKKIVYNSDRNGVPQLYIMNSDGSDVQRISFGGGSYAAPSWSPRGDYIAFTKITKGDGGKTFNIGIMKACPQDDENSERIITSGYLVESPCWSPNGRVIMFAKGWPSSAKAPGKNKIFAIDLTGHNEREIMTPADASDPEWSGVLN

返回結果：

不得不提我學習生信過程中最快樂的一點，就是結果圖都夠花，哈哈哈哈。頁面好看，很想放圖。

2. 預測其他結構特徵

PSIPRED是針對主要二級結構的預測，而PredictProtein無疑更全面一點：

https://predictprotein.org/

包括：前面提到的主要二級結構預測；蛋白溶劑可及性（Solvent Accessibility）預測；跨膜螺旋即拓撲結構預測；結合位點預測；保守區域分析；PSI-BLAST結果等。

如果通過PredictProtein發現了什麼有趣的特徵，可用更專業的軟件或網站進行進一步分析。

二、從序列到3-D結構

1. 在PDB網站檢索和顯示3-D結構

PDB網址：

https://www.rcsb.org/

已知一個有結構信息的蛋白，並且知道它的ID。可以在網站進行簡單搜索，查看結構等信息。

2. 推測目標蛋白的3-D結構

如果要推測感興趣的一段氨基酸序列的3-D結構，一個簡單直接的方法是通過與已知結構的蛋白質的序列比對，即在blastp中選擇PDB數據庫，進行blast。

3. 序列與3-D結構的對應

在操作2後，選擇一組序列如下（NP_360043，NP_415268，NP_404737，NP_249663，NP_438543），進行多序列比對後可以找到這組序列的保守區域。通過已知結構的蛋白質與序列的對應關係，推測保守序列可能的功能。例如我們發現了一段蛋白的保守序列，它對應蛋白質凹陷部位或者表面，那麼可以推測這段序列可能是酶的活性位點或者與其他分子互作有關。

（1）下載序列FASTA格式：

用於舉例的5條序列：在NCBI-protein數據庫中導出fasta文件NP_360043NP_415268NP_404737NP_249663NP_438543

（2）用多序列fasta文件進行多序列比對，選擇保守區域：

（3）分析蛋白模型：

打開NCBI-Structure，檢索上述蛋白序列中分辨率最高的（PDB數據庫頁面有顯示resolution，1CRZ是1.95 Angstroms）。得到結果頁面如下圖：

https://www.ncbi.nlm.nih.gov/Structure/index.shtml

可以看到上圖標了黃色的部分，下載Cn3D軟件，然後再下載這個蛋白的結構文件，就可以用Cn3D軟件打開。操作非常方便，可以直接選中序列，或者在window→show sequence viewer→view→find patterns裏，直接輸入想要了解的pattern。

三、更多工具和網站

1. 尋找相似結構的蛋白質-Finding proteins with similar shapes

這是一個上傳蛋白質結構文件，在Molecular Modeling Database（MMDB）中檢索相似結構的網站。當確認蛋白質結構後，若想知道這個結構是否是新的，可以用VAST檢索。

（1）NCBI’s structure-structure similarity search service (VAST)

https://www.ncbi.nlm.nih.gov/Structure/VAST/vastsearch.html

2. PDB viewers-Finding other PDB viewers

以下是類似Cn3D軟件的PDB結構查看軟件：

（1）RasMol

http://www.rasmol.org/

（2）DeepView, Swiss-PdbViewer

https://spdbv.vital-it.ch/

3. 對結構進行分類-Classifying your PDB structure

（1）The CATH classification

http://www.cathdb.info/

（2）The Dali 3D neighbor finding server

https://www.ebi.ac.uk/msd-srv/ssm/

（3）The SCOP classification

http://scop.mrc-lmb.cam.ac.uk/

4. 蛋白結構預測之同源性建模-Doing homology modeling

同源建模是一種依賴模板的預測方法，具體原理是相似序列擁有相似結構。以與未知結構蛋白具有同源性的已知結構的蛋白作爲模版，用生物信息學的方法通過計算機模擬和計算，根據一級序列預測其三維空間結構。這個方法適用於目標序列與模板序列一致度高的情況（一致性>30%，模型準確度可達80%），當同源性低，則考慮下面兩種。

（1）Modeller

https://salilab.org/modeller/

（2）SWISS-MODEL

https://swissmodel.expasy.org/