eLife | 利用進化信息預測蛋白質界面間殘基-殘基相互作用

作者 | 羅曉妍

研究方向 | 多序列相互作用

推薦人 | 王浩博(哈佛大學) 

導語:蛋白質在進化過程中,會發生氨基酸突變,破壞了殘基之間的相互作用而導致蛋白質結構不穩定,若此時與突變殘基具有相互作用的殘基也隨之發生突變,且構成新的相互作用,使蛋白質結構保持穩定,稱這種變化爲蛋白質共進化。本次介紹一篇由美國華盛頓大學霍華德休斯醫學院研究團隊於2014年5月發表在eLife上的一篇文章,該文章利用共進化信息實現了對蛋白質間殘基-殘基相互作用的魯棒且準確的預測。

1

研究背景

蛋白質是連續的氨基酸序列經過盤曲摺疊形成特定的三維結構。蛋白質必須有正確的形狀才能正常運作,因爲它們通常通過與其他蛋白質或分子結合而起作用。兩個或多個蛋白質可以結合在一起,形成複合體來執行各種任務;研究這些複合物的結構是一項挑戰,即使是在已知蛋白質亞基結構的情況下也是如此。作者注意到在蛋白質複合物中,來自不同蛋白質的氨基酸發生共進化時,這兩個氨基酸往往會在蛋白質-蛋白質界面上發生接觸。本文的作者開發了一種方法,利用共進化信息來預測在蛋白質複合物(two-protein complex)中哪一部分蛋白質發生了相互接觸。

2

研究方法

(1)生成單個對齊

用HHblits和HHfilter對由EcoGene 3.0鑑定的4303個大腸桿菌蛋白基因進行多序列比對。爲了減少冗餘,作者爲每個MSA(多序列比對)構造HMMs並且基於HHΔ( 衡量HMM-HMM相似性:如果一對基因的HHΔ小於0.5,則劃分爲同一簇)聚簇基因,生成了2340個非冗餘基因簇。

對於基準數據集, 使用與每個PDB關聯的序列生成新的對齊。對於50S核糖體和NADH脫氫酶,作者使用來自PDB結構3uxr和4hea的嗜熱菌HB8序列。

對於同源的NADH脫氫酶鏈L,M和N,作者在對齊生成協議中將e-value置爲1E-60。除了來自大腸桿菌分析的複合物外,作者還使用來自PDB結構3ip4的序列將GatCAB酰胺基轉移酶複合物納入基準集中。對於PDB序列長度比平均長度範圍長得多的情況,作者將覆蓋範圍過濾器修改爲查詢的50%。然後使用clustal omega v1.2重新比對序列。查詢序列中不存在的殘基不納入後續分析中。

(2)生成配對對齊

作者從同一基因組中構建成對的蛋白序列[x1, x2, …, xp; xp+1, …, xp+q] ,位置1:p和p+1:p+q分別對應兩個蛋白質。將這樣一對蛋白質的多序列比對稱爲配對對齊。

對於基因組中有單拷貝基因的基因家族,如核糖體蛋白,很容易構建配對對齊,因爲來自同一基因組的序列對可以直接連接。雖然在單基因組中一個基因存在的多個旁系同源基因的情況下,生成配對對齊的過程通常是複雜的,但在原核生物中,共同調控的基因通常在基因組中共同定位於操縱子中。作者限制使用具有小的,保守的基因間距離的基因對來創建配對序列,以此規避旁系同源基因。相似的方法被用於構建原核基因組中融合蛋白的數據庫。將Δgene定義爲一個基因對之間的註釋基因數,我們僅考慮Δgene在60%的基因組中保守且小於20的基因對。考慮到在一個基因組中,大多數UniProt accession IDs是連續分配的,可以通過查看UniProt accession IDs的差異從而快速評估Δgene。然後對配對的比對進行過濾,以將冗餘度降低至90%序列同一性,並去除缺口大於75%的位置。

(3)蛋白質複合體結構識別

爲了在複合體結構中識別蛋白質對,對每一個大腸桿菌蛋白,用已生成的HHblits對齊構造HMM。接着使用hmmsearch在S2C數據庫中掃描PDB序列。只考慮滿足e-value小於1E-10的匹配。

(4)用配對對齊構建Gremlin模型

Gremlin爲每個配對對齊構造一個全局統計模型,爲配對對齊中的每一個氨基酸序列分配一個概率。

其中,Vi是編碼位置特異性氨基酸傾向的向量,Wij表示編碼位置i和j處氨基酸的耦合矩陣。通過最大化對齊的正則化僞似然度,從比對序列中獲得這些參數,如下:

總和中的每一項是一個條件分佈,該條件分佈捕獲了整個蛋白質序列中某個位置特定氨基酸的概率,R(v,w)是防止過度擬合的正則化項。

(5)用Gremlin評分排序殘基對

爲了將W ij矩陣簡化爲反映位置i和j之間耦合強度的單個值,作者首先計算S ij,即它們的向量2範數。使用這些值的行和列平均值來校正由於不同位置處的序列變異性而導致的Sij的差異:

其中,括號表示採用括號之外的指數的平均值,計算方法類似於Average Product Correction(APC)。與APC不同,作者僅通過計算對應於位置i和j的蛋白質位置的平均值來解決兩個蛋白質家族中進化速率的差異:如果i和j都在第一個(第二個)蛋白質中,計算出第一個(第二個)蛋白質的位置上的平均值;如果i在第一個蛋白質中,而j在第二個蛋白質中,則僅在第一個蛋白質的位置上計算列平均值,而在第二個蛋白質的位置上僅計算行平均值。然後,計算歸一化的耦合強度,ncsij,計算方法是用除以前3L/2的平均值。

作者觀察到,當給定的複合物的最高耦合強度分數很高時,殘基接觸發生的頻率越高越。爲了解釋這些依賴關係,建立了一個基於細菌50S核糖體複合物估計接觸概率的模型:

通過與50S核糖體數據中觀察到的頻率的非線性擬合,確定了m、c和σ(分別爲0.47、0.96和9.77)的值。

(6)將Gremlin評分轉化成距離約束

作者將耦合強度轉換爲特定於殘基對的距離約束,並將其包括在Rosetta結構預測程序中。作者使用以下形式的距離約束:

(公式1)

其中,d是受約束的原子間距,weight與 ncsij成比例。

(7)比較建模

使用RosettaCM基於與HHsearch生成的同源結構的比對(Remmert等,2011)建立了比較模型。對於預測會接觸的區域中密度缺失的蛋白質,作者使用RosettaCM與受約束的共進化在對接之前構建缺失區域。

(8)從頭建模

Rosetta從頭建模的協議包括兩個階段:在初始階段(“質心”),側鏈由固定的質心原子表示,可以快速生成和評估各種蛋白質樣拓撲結構;第二階段(“全原子”)建立在明確的側鏈中,並實現所有原子能的最小化。YIAM是一種膜蛋白, 由Rosetta膜能量函數建模。強排斥相互作用(公式1:weight: −100, cutoff: 35, slope: 2 and intercept: 100)被添加到細胞外區域的中心和預測的細胞內區域的中心之間,強吸引約束(weight:100, cutoff:35, slope:2 and intercept: 0)在預測的細胞內區域和細胞外區域內,有效地構建了膜狀採樣空間。使用MESSA的輸出來預測跨膜區域。生成了100,000個模型,並且將最適合約束的20個模型收斂到單個羣集。

(9)對接測試集

使用Jackhammer(HMMER v3.1b軟件包的一部分)來識別基準集中18種複合物的子集,其中至少一種蛋白質或緊密同源物的apo形式具有可解析的結構。在結構爲同源蛋白(e-value < 1E-20)並且存在大多數界面殘基的情況下,我們使用比較模型生成了目標蛋白的結構模型。

(1)蛋白質-蛋白質對接

對於前3 / 2L預測中的每個約束間對,使用PatchDock v1.0,用聚類參數(rmsd 0.5; discardClustersSmaller 0)生成構象合集,然後使用所有約束對其進行評分。約束得分最高的5個模型使用約束在笛卡爾空間中進行了能量最小化。對於原生接觸分數(Fnat)和界面均方根偏差(iRMSD)的計算,界面殘基-殘基接觸是指任何重側鏈原子之間的最小距離小於5Å。

3

實驗結果

要識別兩個蛋白質A和B之間的共進化殘基對並不容易:只有當兩個有機體中分別包含蛋白質A和蛋白質B的直系同源蛋白,並且生成A序列和B序列的對齊必須正確配對。爲了簡化直系同源鑑定,關注基因組中具有保守染色體位置的基因對,該基因對在基因組中被少於20個其他帶註釋的基因隔開。然後,作者爲配對蛋白質家族中的序列建立Gremlin全局統計模型。接下來作者研究了具有較大耦合參數的殘基對。

細菌50S核糖體亞單位中的殘基-殘基共進化

作者從研究細菌50S核糖體亞基中的殘基-殘基偶聯參數開始,這是具有原子拆分結構的最大的進化保守細菌多蛋白複合物。對於複合物中的每個蛋白質,通過查詢UniProt序列數據庫構建多序列比對。對於每個這樣的配對比對,建立一個Gremlin全局統計模型,計算歸一化的偶聯強度,並根據這些評分對蛋白質間殘基對進行排名。偶聯強度大於1表示兩個殘基之間的平均偶聯率更高。

研究發現,在50S核糖體亞基中,只有一小部分殘基協同進化,如偶聯強度(圖1A的 y軸)大於1.5時,並且大多數殘基對距離在8Å 之內,所有殘基對距離都在12Å之內。

圖1A

圖1B中顯示了50S結構中共進化殘基對的位置(爲了清晰起見,各蛋白被拉開了)。黃線表示距離小於8Å,橙線表示距離小於12Å。對於50S核糖體,使用約1500個非冗餘基因組的序列數據建立了Gremlin模型。

圖1B

對於大的蛋白質-蛋白質複合物,複合物中蛋白質對之間的偶聯強度的總和是否可用於區分直接相互作用的和非相互作用的蛋白質對?在50S亞基中,總偶聯強度(圖1C中的數字)大於1.5的蛋白質對,彼此相互作用(圖1C中的方框)。但是,在50S亞基中有一些蛋白對接觸,但沒有發現共進化。顯然,並非每種相互作用都可以通過偶聯強度的總和來確定。

圖1C

圖1D表明,對於具有大量對齊序列的複合體,基於氨基酸序列共進化的殘基-殘基相互作用預測具有較高的置信度。

細菌複合體基準

對大腸桿菌的基因對生成配對對齊,對於1126個基因對,建立Gremlin全局統計模型,並確定了每個殘基對的偶聯強度。其中有64對基因對包含Gremlin得分>0.85的殘基對,通過實驗進一步確定了其中28對的三維結構,圖2A中顯示了其中一些複合物的Gremlin得分大於0.6的殘基對的位置。

圖2A

幾乎所有Gremlin得分大於0.6的配對都在複合物結構中接觸,除了NADH脫氫酶亞基(圖2B)明顯例外。有研究者認爲該複合物在電子轉移過程中經歷了一系列構象變化。

圖2B

結構未知的複合物的接觸預測

在圖3中,作者提供了目前結構未知的36種複合物的殘基-殘基接觸預測。這些預測應該會有助於確定這些生物學上重要的複合物的結構。

圖3

從接觸預測到結構建模

預測的接觸對於建模組建蛋白質複合物有幫助嗎?作者在具有18種蛋白質複合物(複合物的部分結構已知)的對接測試集上進行評估。作者開發了一種對接協議,使用預測的接觸作爲距離約束,並採樣了物理上合理的結構空間,以生成蛋白質-蛋白質複合物的模型。

圖4A

iRMSD(界面均方根誤差)最高的兩種情況(圖4A最後兩行)在圖4B和圖4C中說明。高iRMSD是由於其中一種單體結構的構型在結合後發生了較大變化而引起的。儘管發生了這些變化,模型仍然可以準確識別結合界面。

圖4B-C

4

總結

作者的研究結果表明,共同進化的殘基對在蛋白質複合物中通常都會發生接觸。當然,並不是所有在蛋白質界面發生接觸的殘基對都會發生共進化。之前的研究表明,只要有足夠的比對序列,對單體蛋白的接觸預測能達到很高的準確率,但是在這種情況下,必須先已知一個家族蛋白結構,並可以從中建立比較模型,限制了接觸預測在結構預測中的效用。

作者使用提出的新方法對細菌中的28種蛋白質複合物中的蛋白質-蛋白質界面和細菌核糖體中蛋白質亞基之間的界面進行了預測,與真實結構比較後,得到了較高的準確率。下一步是考慮將該方法應用於真核生物中發現的蛋白質複合物。這是一個挑戰,因爲真核蛋白可供生成多序列比對的蛋白數量較少,因此更難檢測到共進化現象的發生。

數據與工具

 http://gremlin.bakerlab.org/complexes/

參考資料

Ovchinnikov S , Kamisetty H , Baker D . Robust and accurate prediction of residue–residue interactions across protein interfaces using evolutionary information[J]. Elife, 2014, 3.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章