DeepMind攻破生物學領域50年難題:蛋白質結構預測準確性可達92.4分

譯者 | 劉暢

來源 | Google博客

導語:蛋白質的形狀與其功能密切相關,能夠預測這種結構可使人們更好地瞭解它的功能和工作原理,從而突破世界上許多強有力的挑戰,如開發疾病治療方法或尋找分解工業廢物的酶等。因此在過去50年裏,“蛋白質摺疊問題”一直是生物學界的一個挑戰。近日,谷歌旗下人工智能技術公司 DeepMind 提出深度學習算法「Alphafold」,破解了這一難題。

蛋白質對於生命非常重要,它幾乎支撐着生命的所有功能。它們是由氨基酸鏈組成的複雜大分子,蛋白質的功能在很大程度上取決於它獨特的三維結構。搞清楚蛋白質會摺疊成什麼形狀被稱爲“蛋白質摺疊問題”,在過去的50年裏,它一直是生物學界的一個重大挑戰。我們的人工智能系統AlphaFold的最新版本已經被兩年一度的蛋白質結構預測臨界評估(CASP)組織會認可爲這一重大挑戰的解決方案,是一項重大的科學進展。這一突破彰顯了人工智能技術對科學發現的影響,以及它在解釋和塑造世界上一些最基本領域上的潛力。

蛋白質的形狀與其功能密切相關,預測這種結構的能力可以使人們更好地瞭解它的功能和工作原理。世界上許多強有力的挑戰,如開發疾病治療方法或尋找分解工業廢物的酶,基本上都與蛋白質及其所扮演的角色有關。

“近50年來,我們一直糾結於一個問題——蛋白質如何摺疊。看到DeepMind爲這個問題找到解決方案,在經歷了這麼長時間的個人努力之後,經過了這麼多的反覆嘗試,我想知道我們是否能做到這一點,這是一個非常特殊的時刻。”約翰·穆爾特教授,馬里蘭大學CASP聯合創始人兼主席 如此說到。

這是多年來科學研究的一個焦點,使用各種實驗技術來檢驗和確定蛋白質結構,如核磁共振和X射線晶體學。這些技術以及較新的方法,如低溫電子顯微鏡,都依賴於廣泛的實驗和誤差,每種結構可能需要數年艱苦的工作,並且需要使用價值數百萬美元的專門設備。

“蛋白質摺疊問題”

在1972年諾貝爾化學獎的獲獎演說中,克里斯蒂安·安芬森(Christian Anfinsen)提出了一個著名的假設:理論上,蛋白質的氨基酸序列應該完全決定它的結構。這一假設引發了一個長達50年的探索,即能夠僅根據蛋白質的1D氨基酸序列來計算預測蛋白質的三維結構。然而,一個主要的挑戰是,理論上一種蛋白質在形成最終的三維結構之前可以摺疊的方式是天文數字。1969年,賽勒斯·萊文塔爾(Cyrus Levinthal)指出,用強力計算法計算出一種典型蛋白質的所有可能的構型需要比已知宇宙年齡更長的時間——Levinthal估計了一種典型蛋白質的10^300種可能的構象。然而,在自然界中,蛋白質會自發摺疊,有些在幾毫秒之內——這種二分法有時被稱爲Levinthal悖論。

CASP14評估結果

1994年,JohnMoult教授和Krzysztof Fidelis教授創立了CASP,進行兩年一度的盲評估,以促進研究,監控進展,並確立蛋白質結構預測的最新水平。它既是評估預測技術的金標準,也是建立在共同努力基礎上的獨特的全球社區。關鍵的是,CASP選擇最近才被實驗確定的蛋白質結構(有些在評估時仍在等待確定)作爲團隊測試其結構預測方法的GroundTruth;它們均未提前發佈。參與者必須盲目地預測蛋白質的結構,當這些預測變得可用時,這些預測將與基本事實的實驗數據進行比較。我們要感謝CASP的組織者和整個社區,尤其是實驗人員,其組織架構使得這種嚴格的評估成爲可能。

CASP用來衡量預測精度的主要指標是全距離檢驗(GDT),其範圍爲0-100。簡單地說,GDT可以近似地認爲是氨基酸殘基(蛋白質鏈中的珠子)在離正確位置一定距離內的百分比。根據Moult教授的說法,90 左右的GDT分數被非正式地認爲與實驗方法得到的結果相似。

在今天發佈的第14次CASP評估的結果中,我們最新的AlphaFold系統在所有目標中實現了92.4的GDT總分。這意味着我們的預測平均誤差(RMSD)約爲1.6埃,相當於一個原子的寬度(或0.1納米)。即使對於最難的蛋白質目標,那些在最具挑戰性的自由建模類別,AlphaFold也達到了87.0 GDT的中位數(數據可在這裏獲得)。

這些令人興奮的結果爲生物學家將計算結構預測作爲科學研究的核心工具打開了大門。我們的方法可能被證明會有助於重要的蛋白質類,如膜蛋白,這些蛋白質很難結晶,因此很難實驗測定。

“這項計算工作代表了蛋白質摺疊問題的驚人進展,這是生物學界一個有50年曆史的重大挑戰。幾十年前,這個領域的許多人還沒有預料到。看到它將從根本上改變生物學研究的許多方面,這非常令人興奮。”VENKI RAMAKRISHNAN教授,諾貝爾獎獲得者、英國皇家學會主席。

蛋白質摺疊問題的探討

2018年,我們首次使用AlphaFold的初始版本進入CAP13,該版本在參賽者中達到了最高的精確度。之後,我們發表了一篇關於CASP13方法和相關代碼的文章,這篇文章進一步啓發了其他工作和社區開發的開源實現。現在,我們開發的新的深度學習體系結構改變了我們對CASP14的方法,使其能夠達到無與倫比的精確度。這些方法從生物學、物理學和機器學習領域獲得靈感,當然也包括過去半個世紀以來蛋白質摺疊領域許多科學家的工作。

摺疊的蛋白質可以看作是一個“空間圖”,其中殘基是節點,邊將殘基緊密地連接在一起。這張圖對於理解蛋白質內部的物理相互作用以及它們的進化史很重要。對於CASP14使用的AlphaFold的最新版本,我們創建了一個基於注意力的神經網絡系統,經過端到端的訓練,它試圖解釋這個圖的結構,同時對它所構建的隱式圖進行推理。它使用進化相關序列、多序列比對(MSA)和氨基酸殘基對的表示來細化該圖。

通過重複這個過程,系統可以對蛋白質的基本物理結構做出強有力的預測,並且能夠在幾天內確定高度精確的結構。此外,AlphaFold可以使用內部置信度來評估每個預測的蛋白質結構的哪些部分是可靠的。

我們利用蛋白質數據庫中的170000個蛋白質結構和包含未知結構蛋白質序列的大型數據庫對該系統進行了訓練。它使用大約128個TPUv3內核(大約相當於約100-200個gpu)運行數週。與我們的CASP13 AlphaFold系統一樣,我們正在準備一篇關於該系統的論文,以便在適當的時候提交給同行評審的期刊。

對現實世界的影響

十年前,當DeepMind成立時,我們希望有一天人工智能的突破能夠成爲一個平臺,幫助我們更好地理解基本科學問題。現在,經過4年的努力建立了AlphaFold,我們開始看到這一願景的實現,並對藥物設計和環境可持續性等領域產生了影響。

馬克斯·普朗克發育生物學研究所所長、CASP評估師安德烈·盧帕斯教授告訴我們,“AlphaFold驚人準確的模型使我們能夠解決我們在近10年裏一直堅持的蛋白質結構,重新啓發了我們對信號如何通過細胞膜傳遞的理解。”

我們對AlphaFold在生物學研究和更廣闊的世界的影響持樂觀態度,我們也很高興與其他人合作,在未來的歲月裏進一步瞭解它的潛力。除了撰寫同行評議的論文外,我們還在探索如何以可伸縮的方式提供對系統更廣泛的訪問。

同時,我們也在研究蛋白質結構預測如何與少數專家小組一起幫助我們瞭解特定疾病,例如幫助識別出有故障的蛋白質並解釋它們如何相互作用。這些認識可以使藥物的研發更精確,補充現有的實驗方法,更快地找到有希望的治療方法。

“預測蛋白質結構的速度是驚人的。這一飛躍展示了數值計算方法準備如何改變生物學研究,並有望加速藥物發現。”亞瑟·D·萊文森。博士,創始人兼首席執行官卡利科,前董事長兼首席執行官,基因泰克

我們也看到一些跡象表明,蛋白質結構預測在未來的疾病大流行應對工作中可能是有用的,它是科學界開發的許多工具之一。今年早些時候,我們預測了SARS-CoV-2病毒的幾種蛋白質結構,包括ORF3a,其結構以前是未知的。在CASP14,我們預測了另一種冠狀病毒蛋白質ORF8的結構。實驗家們已經證實了ORF3a和ORF8的結構。儘管它們具有挑戰性,而且相關序列很少,但與實驗確定的結構相比,我們在兩種預測上都獲得了較高的準確度。

除了加速對已知疾病的瞭解外,這些技術仍然有潛力探索我們目前還沒有模型的數億蛋白質結構,這是一個生物學未知的廣闊領域。由於DNA指定了構成蛋白質結構的氨基酸序列,基因組學革命使得人們能夠大規模地從自然界中讀取蛋白質序列——有1.8億個蛋白質序列,並在通用蛋白質數據庫(UniProt)中計數。相比之下,考慮到從序列到結構所需的實驗工作,蛋白質數據庫(PDB)中只有大約170000個蛋白質結構。在這些尚未確定的蛋白質中,可能會有一些新的和令人興奮的功能,就像望遠鏡能幫助人們更深入地觀察未知的宇宙一樣,像AlphaFold這樣的技術可以幫助我們找到它們。

未來新的可能性

AlphaFold是迄今爲止我們最重要的進展之一,但是,與所有科學研究一樣,仍然有許多問題需要回答。不是每一個我們預測的結構都是完美的。還有很多東西需要學習,包括多個蛋白質如何形成複合物,它們如何與DNA、RNA或小分子相互作用,以及我們如何確定所有氨基酸側鏈的精確位置。在與其他人的合作中,我們還需要學習如何最好地利用這些科學發現來開發新藥、管理環境的方法等等。

對於我們所有致力於科學計算和機器學習方法的人來說,AlphaFold這樣的系統展示了人工智能作爲幫助基礎發現的工具的潛力。正如50年前安芬森提出了一個遠遠超出科學研究範圍的挑戰,我們宇宙的許多方面仍然是未知的。今天宣佈的進展讓我們進一步相信,人工智能將成爲人類拓展科學知識前沿最有用的工具之一,我們期待着未來多年的努力和發現!

原文鏈接:

https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology

更多精彩推薦

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章