Nat. Mach. Intell. | 快速的蛋白質結構從頭預測

今天給大家介紹一篇Nature Machine Intelligence期刊的論文“AmoebaContact and GDFold as a pipeline for rapid de novo protein structure prediction”，該工作由清華大學龔海鵬課題組完成。本文提出一種基於機器學習的殘基Contact預測方法輔助蛋白質結構從頭預測，不僅改善了預測精度，而且提高了預測速度。

1.研究背景

從氨基酸序列直接預測蛋白質三級結構是結構生物信息學中最具挑戰性的問題之一，具有重要的意義和迫切的需求。殘基對之間的Contact包含了足夠的信息來重構蛋白質結構，即使是部分接觸信息的知識也可以有效地減小構象搜索空間從而顯著提高構象採樣效率。而Contact信息可以通過對氨基酸序列進行進化分析得到，預測結果通常形成一個方陣，包含了所有殘基對之間的Contact可能性，稱爲Contact Map。Contact Map可以通過深度學習方法進行處理，作爲促進蛋白質結構預測的重要工具，蛋白質Contact Map預測成爲一個受歡迎的子領域，並在蛋白質結構預測技術(CASP)競賽受到了廣泛的關注。RaptorX-Contact，通過深度殘差網絡進行預測，在CASP13競賽中取得了Contact預測組第一。

儘管取得了一定的進展，深度學習算法在Contact接觸預測方面仍然存在一定的侷限性。首先，接觸預測不僅僅是一個局部模式識別問題。Contact Map只是蛋白質三維結構的高維投影，由於空間限制，每個殘基最多隻能與6-8個殘基接觸，對接觸圖的每一行/每一列中的Contact的數量有很大的限制。第二個侷限性是，大多數基於神經網絡的算法只是簡單地借用計算機視覺領域成熟的神經網絡體系結構進行Contact Map預測，忽略了Contact問題的特殊性。神經結構搜索(NAS)是深度學習的一個新興子領域，它試圖爲特定的任務找到更合適的結構，從而爲這個問題提供解決方案。

一般來說，Contact Map可以作爲能量項整合到傳統的蛋白質結構預測算法中，或者通過Contact Map構建距離約束矩陣並通過分子動力學模擬預測結構。在最新的CASP13競賽中，傳統的Contact輔助結構預測方法受到了AlphaFold的挑戰。AlphaFold通過多個深度神經網絡來預測殘基間距離和骨架原子二面角等約束條件，並採用一種簡單的基於梯度下降的方法，使用這些約束條件更有效地預測蛋白質結構。

爲了快速高效地預測蛋白質三級結構，本文提出了一種新的Contact預測器AmoebaContact，以及一種基於梯度下降的Contact輔助結構預測方法，GDFold。通過修改AmoebaNet NAS算法，自動搜索神經網絡架構來完成Contact Map預測任務。GDFold在可微損失函數中考慮完整的Contact Map，並使用梯度下降算法進行優化。GDFold可以獲得RaptorX-Contact方法精度相當的蛋白質結構模型，但速度更快。

2.方法

2.1 GDFold方法介紹

本文使用AmoebaNet來優化網絡架構，用於蛋白質Contact Map預測，並在其中加入了行標準化和列標準化；加入了類似ResNet的短路式連接，以防學習飽和；允許模型權值繼承來加速訓練。如圖1所示，AmoebaContact可以產生多個輸出，提供了殘基對之間的更全面的距離信息，用於更加有效和準確的結構建模。而基於梯度下降的摺疊算法GDFold可以通過最小化可微損失函數來進行優化。

圖1 GDFold預測流程圖

2.2數據集

本文使用了幾個成熟的數據集進行測試，包括PSICOV150、CASP11、CASP12和CASP13。訓練和驗證集採用CATH數據庫。具體來說，在CATH中保留了所有的高精度結構(>2.5A)作爲起始點，同時消除訓練集、驗證集和測試集之間的冗餘。片段和非常短(500個殘基)域也被忽略。

2.3 模型特徵

本文使用多個特徵來預測蛋白質Contact Map。多序列比對（MSAs）是由HHblits針對UniProt20數據庫建立的。通過CCMpred和MI預測L*L大小的Contact Map二維特徵，其中L爲蛋白長度。爲了使模型能夠識別殘基的相對位置，增加殘基指數的差異作爲附加特徵。除此之外，測量每個殘基對在一個序列中共存的概率以及利用其它程序預測的一些信息構建一維特徵，對每個氨基酸殘基的性質進行描述。

2.4 利用AmoebaNet搜索神經結構

本文采用AmoebaNet算法優化網絡架構。AmoebaNet是一種基於細胞的NAS算法。在體系結構進化過程中，種羣在開始時是隨機初始化的。然後，從總體中抽樣大小爲S的子集，具有最佳驗證性能的模型將被選擇爲父模型。通過變異操作生成的子模型。子模型在進行篩選後會替換種羣中性能較差的父模型，保持種羣數量不變。這種進化將重複進行，直到性能收斂或生成合適的體系結構。

2.5 模型擴展和微調

在完成網絡架構搜索之後，本文通過擴大細胞重複數N和通道數F來擴展選擇的模型(M0、M1和M2)成爲更大、更精確的模型。在確定超參數（N和F）之後，還對其他Contact截止點的模型進行微調。除此之外，將學習速率優化爲10-4，並對模型進行100-200代的訓練，以獲得合適的收斂性。

2.6 梯度下降法摺疊

從AmoebaContact獲得的多個Contact Map主要用於GDFold。對於每一個截止點，預測得到的Contact Map可以轉化爲下述所示損失函數：

其中Pü是殘基i和殘基j的預測分數，Dü是殘基i和殘基j在結構中是否爲Contact。爲了更好地解決蛋白質的結構特性，一些其他的損失項也被計算在內，包括基於ResNet預測的局部Contact信息，一個用於預測是否屬於α-螺旋片段的多層感知器模型以及局部殘基和二面角約束信息。

綜合損失函數使用混合Adam-SGD進行優化。值得注意的是，綜合損失函數包含很多能量項，每一項都應當賦予合適的權重。利用網格搜索法對驗證集上各損失項的權值進行優化，避免訓練集中引入偏差，選取GDFold與CONFOLD的預測結構性能差異作爲目標優化函數。

3.結果

3.1 神經結構搜索和等效模型分析

本文修改了原先的AmoebaNet從而用於殘基Contact Map預測，包括引入了I/R/CN操作。使用改進的算法，我們總共探索了500個網絡架構，其中前64個架構是隨機生成的，後續的模型是從隨機架構中進化得來的。圖2a顯示了驗證集上500個架構的f1分數。在架構搜索結束時，模型性能收斂到~62%，最佳模型達到62.16%。所選模型的詳細架構如圖2b所示。

圖2 AmoebaNet搜索過程中的模型演化

3.2 模型增強與微調

在架構搜索過程中，爲了提高計算效率，對模型進行了小範圍的訓練，並且可以對模型進行增強以獲得更好的性能。儘管由於內存溢出，未能對M2-5模型進行超參數集的訓練，但由於模型深度和通道數的增加，所有所選模型的性能都得到了改善，如圖3所示。

圖3 增強模型的性能

AmoebaContact在驗證集和PSICOV150測試集之間表現出相差無幾的性能，但是在三個CASP測試集中顯示出較低的f1分數，如表1所示。這是意料之中的，因爲CASP目標通常是更加困難的，僅包含具有同源序列的多序列比對(MSA)信息。

表1 AmoebaContact模型在驗證集和四個測試集上的f1分數

3.3 GDFold進行結構建模

本文系統地比較了AmoebaContact和GDFold與RaptorX-Contact對所有測試集蛋白的Contact和預測結構，如圖4所示。對於PSICOV150測試集，AmoebaContact和GDFold的表現明顯優於RaptorX-Contact。在較爲困難的CASP測試集中，RaptorX-Contact在Contact的精確性上明顯優於AmoebaContact，然而在預測結構精度比較上，AmoebaContact被成功挽救，GDFold產生的結構模型與RaptorX-Contact產生的模型在精度上沒有明顯的差異。

圖4 AmoebaContact和GDFold與RaptorX-Contact的詳細比較

3.4 運行時間和內存消耗

對於包含300個殘基左右的蛋白，AmoebaContact進行特徵計算需要接近17分鐘,而GDFold進行結構建模需要10分鐘左右。儘管AmoebaContact的特徵提取過程相對緩慢，但GDFold的速度明顯快於任何結構預測服務器。迄今爲止最快的蛋白質結構預測服務器之一CONFOLD，對包含300殘基左右的蛋白進行一次實驗結構建模需要接近1小時，至少比GDFold慢6倍。GDFold只需要一個摺疊實驗，直接利用一個綜合損失函數的整體接觸圖。除此之外，AmoebaContact和GDFold的內存消耗爲250MB和8GB。

4.討論

儘管採用了優化的網絡結構進行接觸預測，AmoebaContact的表現略低於CASP13最好的Contact預測服務器（包括RaptorX-Contact和ResTriplet）。這是意料之中的，因爲AmoebaContact模型由於硬件水平的限制，只能擴展到中等大小，而其他的預測服務器都採用超深的ResNet進行預測。因此，通過更系統的模型增強和集成平均有望進一步提高AmoebaContact的性能。

雖然GDFold預測得到蛋白質結構模型的質量可與RaptorX-Contact的相媲美，但這兩種方法在CASP13中的表現略遜於最好的蛋白質結構預測器(Zhang-Server和Quark27)。然而，由於需要大量的構象採樣，頂級蛋白質結構預測服務器的速度往往很慢，並且依賴昂貴的計算資源。相比之下，GDFold具有更快的速度性能，利用梯度下降算法可以加速結構建模，從而允許高通量的基於結構基因組學的結構確定。

Data availability

https://doi.org/10.24433/CO.4945300.v1

Code availability

https://github.com/THUgonglab/AmoebaContact

http://structpred.life.tsinghua.edu.cn/amoebacontact.html

參考資料

Mao, W., Ding, W., Xing, Y. et al. AmoebaContact and GDFold as a pipeline for rapid de novo protein structure prediction. Nat Mach Intell 2, 25–33 (2020) doi:10.1038/s42256-019-0130-4

Nat. Mach. Intell. | 快速的蛋白質結構從頭預測

1.研究背景

2.方法

2.1 GDFold方法介紹

2.2數據集

2.3 模型特徵

2.4 利用AmoebaNet搜索神經結構

2.5 模型擴展和微調

2.6 梯度下降法摺疊

3.結果

3.1 神經結構搜索和等效模型分析

3.2 模型增強與微調

3.3 GDFold進行結構建模

3.4 運行時間和內存消耗

4.討論

Data availability

Code availability

參考資料

C#開源的兩款功能強大的錄屏神器

認知提升的方法

螞蟻面試：Springcloud核心組件的底層原理，你知道多少？

GCLGP | 圖卷積高斯過程

MuRP | 雙曲空間下知識圖譜鏈路預測新方法

Nature Cancer | 發現非腫瘤藥物的抗癌潛力

PNA | 使用多聚合器聚合圖信息結構

ICML 2019 | 圖馬爾可夫神經網絡

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結