JMC | 人工智能在藥物合成中的當前和未來作用(3)

人工智能和機器學習已經證明了其在預測化學性質和小分子合成設計中的潛在作用。數據驅動的合成路線設計是由MLPDS(Machine Learning for Pharmaceutical Discovery and Synthesis)聯盟開發和評估的一部分,該聯盟包括MIT和13個化學和製藥公司成員。他們一起寫了“Current and Future Roles of Artificial Intelligence in Medicinal Chemistry Synthesis”刊登於2020年4月JMC,分享瞭如何將預測模型整合到藥物合成工作流程中,如何在MLPDS成員公司中使用預測模型以及該領域的前景。

名詞

CASP

Computer Aided Synthesis Planning

計算機輔助合成路線設計

MLPDS

Machine Learning for Pharmaceutical Discovery and Synthesis

DMTA

design, make, test, analyze

ASKCOS

Automated System for Knowledge-Based Continuous Organic Synthesis

全文分爲三個Section,本文主要介紹Section 3。

  • Section 1: CASP如何幫助藥物化學發現;

  • Section 2: 如何在製藥和化學工業中使用CASP;

  • Section 3:如何使CASP更好。

將CASP集成到藥物化學工作流程中的工作正在進行中,但是在實踐中開發和部署機器學習CASP工具仍然存在許多挑戰。綜合規劃軟件的採用正在獲得發展勢頭,並且通過促進“製造”部分而開始對DMTA週期產生影響。儘管更多的化學家正在使用CASP工具,但是許多小組在未將其代碼開源或根據要求提供代碼的情況下發布了合成計劃方面的進展,從而阻礙了進步和可重複性。此外,度量標準的標準化應與可公開獲得的數據集達成共識,因爲禮節性數據通常不會或無法共享。

建立成功指標

評估單步逆合成模型性能的最常用指標是top-k精度。使用已知的單步反應的測試集評估該度量,並基於預測的前k位中真實斷開的精確匹配進行計算。儘管top-1準確性對於模型開發很有用,但它是一個很差的指標,因爲總是存在多個可以在實驗室中成功執行的逆合成斷開連接。使用小k(1-3)的top-k精度進行模型評估意味着,實際上逆合成是一個模糊的預測,因此,已發表的方法是“正確答案”之一。儘管沒有在數據庫中記錄多個答案,但可能有許多正確的事實,因此諸如top10精度(或更大的k)之類的指標更合適,但也會提高精度,這可能無法正確反映模型的性能。一個簡單的例子是,如果一個程序選擇了溴和氯作爲離去基團,以便進行簡單的取代;根據嘗試的反應,兩者都可能在實驗中成功。

另一個重要但很少報道的指標是預測的多樣性。從大多數化學家的角度來看,top-k精度可能不一定總是選擇逆合成工具的最重要因素。對於合成路線設計,尚未考慮的關鍵斷開與建議的可行性同等重要。在開發模型時需要權衡一些建議,這些建議必須可行,有用且可行。有時對於想法的產生不是很明顯。一個高度可行,無用但很明顯的建議示例是在不建立複雜性的情況下進行簡單的功能團互轉。相反,一種不可行,非常有用且不明顯的建議是在沒有已知化學方法實際進行反應的情況下建議破壞鍵。使用top-k準確性對單步預測進行評分可以獲得可行的建議,同時採用啓發式方法將模型引向有用的斷開連接。權衡只能由能夠對許多建議進行分類的專業化學家進行評估,儘管化學家的評分是主觀的,並且經常偏向於他們所熟悉的化學。爲社區廣泛採用而定義“理想”指標的困難在於平衡準確模型的開發和提供各種建議的模型之間的平衡。

類似於爲單步逆向合成預測定義指標,開發全路線設計算法的主要障礙是評估預測路線的困難。可以按照上述方法評估每個單獨的逆合成步驟,並將路徑搜索的效率作爲附加標準。有時會使用簡單的指標來評估路線設計軟件,但無法完全反映出不同類型化學家的許多需求的複雜性。人們可能會問的一個問題是,這些模型是否能夠提出先前已發佈的路線。人們不希望只建議發佈的路線,因爲查找就足夠了。由於存在許多斷開連接的選項組合空間,因此不希望僅根據文獻中出現的建議來懲罰路線設計。路線設計的另一個問題是模型是否能夠提出化學上可行的路線。由於可行性評分尚未得到定量解決,並且存在其自身的錯誤和侷限性,因此基於合成可行性評估不同的CASP軟件包非常困難。

路線設計的主要要求是路線的多樣性,但就完整路線而言,多樣性仍不確定。路線多樣性不僅取決於單步建議,還取決於導航全合成樹的方法。多樣性可能意味着許多路線的暗示,其中有些非常相似,但在所有途徑中,有一些途徑截然不同。與單步建議類似,如果可行,則沒有必要提出多種路線建議,目前唯一可行的驗證方法就是進行建議的綜合。路線設計的最重要因素是速度,速度取決於用於搜索的停止標準以及一種被視爲可購買的化學原料。通常會在速度和路線質量之間進行權衡,但這可以調整爲用戶的需求。

藥物化學家可能希望看到共享共同中間體的途徑,這些中間體可以加以詳細說明。這提供了導致靶分子最高多樣性的通用途徑,但可能不是通向任何單個化合物的最佳途徑。另一方面,過程化學家可能希望看到高度收斂的路線,但希望以可視化的方式提出許多多樣的路線建議,因爲他們將擁有計算模型無法捕獲的更復雜的考慮因素。最後,需要快速獲得結果以提供比傳統數據庫搜索和手動路線設計更大的價值。逆合成算法的平衡計分,包括評估模型性能的準確性,滿足化學應用的多樣性以及收斂性,是一個困難的多目標優化問題。

數據、通用基準和評估方法

當然,機器學習模型被認爲受益於數量更多,數據更豐富。公司和大學用於捕獲和報告數據的機制對於進一步發展合成設計中數據驅動方法的發展至關重要。在數據庫中不經常記錄的數據示例是替代反應或條件,這些條件或條件已在測試新化合物或天然產物的過程中進行了測試。有關路線演變的討論記錄在文獻報告中,但是當翻譯成數據庫條目時並不會總是被捕獲。該信息對於化學家確定合成路線的策略非常有用,但在構建模型時不會捕獲。另一個考慮因素是,記錄文獻報告的數據庫通常僅包含具有較高收率的正面數據。大多數反應預測變量都受過成功反應的訓練,因此無法預測反應是否具有較低的轉化率。另外,由於與鑑定所有化學種類有關的時間和費用高,因此通常不公開反應混合物中副產物或副產物的完整表徵。這限制了構建反應性預測模型的能力。最終,存在未被捕獲的數據,例如未發佈的催化劑篩選活動。但是,數據捕獲正日益成爲許多公司關注的話題,並且它們的報告有望進入公共數據集。與使用統計學習的方法相比,使用專家編碼規則的CASP方法對數據可用性更不敏感,因爲人類可以促進將少量反應先例推廣到更廣泛的規則。儘管如此,這些方法仍將受益於更豐富的數據,因爲對規則進行編碼的專家將對反應有更好的瞭解。

所有MLPDS成員公司尚未對基於公司數據的機器學習模型進行再訓練。如前所述,禮來公司在訓練逆合成模型時僅發現將USPTO包含在其內部數據中的好處不多。這些結果表明,內部反應數據集可能包含藥物化學程序中最常使用的主要“主力”反應的足夠代表性示例。這就提出了一個問題:對公司數據進行再訓練的模型會不會僅僅給出可以增強最受歡迎的化學物質的建議?答案取決於可以使用CASP工具的化學設置。

藥物化學程序中,需要訪問與當前分子不同的化學空間,因此新的反應類型對於合成非傳統的,日益複雜的目標分子可能是必不可少的。但是,如果可以通過可靠的化學方法合成靶標分子,則CASP建議採用化學方法已確立的方法,而不是具有許多未知數的創造性方法。通過使用通用化學方法識別路線,藥用化學家還可以通過優先考慮可以外包的合成物和需要在內部執行的合成物,更準確地預測到目標時間表。儘管如此,CASP工具的用戶還是希望看到更多具有創造性的建議,特別是那些在過程化學部門工作的建議。這通常是因爲如上所述,對路徑最佳性的考慮比工具能夠處理的更爲複雜或主觀。

此外,如果將CASP工具與自動合成平臺結合使用,則加強反應的問題可能並不那麼重要。對於自動合成,如果CASP系統推薦了公司內部經常使用的簡單而堅固的化學方法,則可以避免化學家必須設計或執行簡單化學方法的負擔。即使藥物化學程序中的一小部分反應可以實現自動化,也可能會對訪問新靶標分子的時間表產生重大影響。這使化學家有更多時間專注於稀有化學方法,這是建立複雜性的關鍵步驟,從而有助於向新化學領域的擴展。隨着新化學方法的發展,它們可用於進一步訓練和完善CASP模型。存在不同的合成設計方法,並且不同模型之間的比較目前尚未標準化。儘管目前對完整合成途徑進行評分的指標並不完善,但仍需要開發開放訪問共享的基準測試平臺或數據集,以便研究人員可以比較合成軟件和算法。爲研究人員提供通用的測試集以對其系統進行基準測試是一項艱鉅的任務。隨着領域的發展,提供給測試集的分子將不得不進化,因爲隨着時間的流逝,它們將被包含在數據庫中進行訓練。訓練數據的基本分佈也會隨着時間而變化,因此,由於訓練數據中新的反應和結構的表示形式較高,因此較新模型上的通用測試集的指標看起來可能會更好。更好的辦法是還提供一個開放的訓練數據集,以使訓練和測試集對於每個發佈的數據驅動模型都是通用的。由於某些系統在其算法中納入了專家編碼的規則,因此基準化後合成軟件也變得很複雜。這意味着這些編碼規則與測試集之間可能存在重疊,而純數據驅動的方法則在訓練數據和測試數據之間有明確的區別。即使採用了更好或更標準化的指標,化學家最終仍將使用適合他們的程序。在他們所操作的化學範圍內定義有用的化合物,並通過建議在實驗室中成功的途徑來證明其實用性。

CASP的其他機會

儘管討論的重點是評估和基準化當前合成設計工具的難度,但許多其他預測性任務的進展可能會對藥物化學合成工作流程產生重大影響。例如,條件推薦系統通常集中於以已知或可能唯一的組合來預測已知試劑。催化反應的數據非常有限,因爲經證明成功的獨特催化劑/配體通常較少。爲了應對藥物發現中存在的許多低數據環境,必須改進機器學習模型。可以設想將類似於從頭分子設計的原理應用於獨特的催化劑/配體結構的產生,這可能會增加給定轉化成功的可能性。材料科學中的大型催化體系設計方面的進展已有報道,但在合成小分子有機化合物的催化中所公開的內容很少。催化反應的化學空間通常非常受限制,這對於用於分子生成的數據集的生成提出了問題。與藥物化學中的許多預測任務一樣,可以從受約束的小型數據集中學習的模型進一步開發至關重要,並且可能需要使用新的輸入表示形式來獲取對分子結構的更豐富描述。存在預測立體選擇反應中配體的其他機會,但將需要開發新的3D表示形式。從頭開始設計催化劑/配體的最終複雜因素是,新催化劑/配體的合成和表徵通常會消耗大量時間。在大多數藥物化學程序中,僅爲催化劑/配體添加多步合成將是禁止的,但高度關注於優化反應順序的每個步驟的學術化學家或過程化學家可能會感興趣。

所有合成有機研究的一個耗時步驟是對產物,副產物進行表徵,並明確確定最終目標分子的結構。目標結構的錯誤分配會導致數據錯誤,從而無法進一步優化結構/活性,甚至可能導致專利糾紛。一種簡單的結構分配方法是使用正向預測模型來識別反應中可能的副產物。這些預測可以用質譜(MS)或IR驗證,以確認反應混合物中的副產物。但是,該方法不能區分結構異構體或非對映異構體化合物,這限制了其用途僅限於產生定義明確的異構體產物的反應。闡明小分子有機結構所需的標準數據,以及發表所需的標準數據,包括MS,1H-NMR和13C-NMR,通常可能需要使用二維NMR實驗或其他NMR實驗的進一步確定。當所有這些數據組合在一起時,可以確定結構特徵,並且訓練模型以根據其光譜預測結構是可行的。學習不同數據之間的複雜非線性模式是機器學習的理想應用。但是,包含所有這些實驗的數據集很少。不太常見的分析方法往往對結構確定更有用。

最後,對數據、模型和代碼的發佈的前景和標準化的討論可能會對朝着完全自動的合成方向發展的整個流程產生重大影響。最近的評論指出,需要在數據/軟件和硬件方面進行改進以實現自主化學合成的許多領域。其中,討論了數據有效和可解釋模型的開發。模型的可解釋性對於許多用戶而言很重要,因爲他們想了解爲什麼機器學習模型會做出某些預測。藉助自動實驗可以生成的大量數據,使用該數據構建具有較低計算開銷和較短時間來產生結果的預測模型的能力將使構建能夠最有效地達到目標的實驗。對於合成設計和自動化實驗中的機器學習而言,另一個重要的考慮因素是不確定性估計的改進,尤其是在數據量較低的情況下。主動學習中不確定性估計的改進將產生更豐富的實驗,從而減少時間和成本。最後,需要建立和標準化針對自動化合成目標的評估指標,這些指標可以集中於測試模型和硬件達到新化學空間能力的分子。

總結

MLPDS聯盟內外的公司目前正在將用於預測化學的機器學習模型集成到DMTA循環中。公司已經開始將ASKCOS集成到工作流中,並且計算開發人員正在與合成化學家緊密合作,以尋找新的研究將產生最大影響的新興領域。爲了加快基於ML的CASP研究的步伐,需要使用通用的基準測試方案建立標準化的指標和共享數據集。對於更強大的基於ML的合成工具而言,表示性、低數據場景下的魯棒性和通用性的根本性進步將非常重要。對混合機器學習和專家編碼的CASP工具的進一步研究可能能夠利用每種方法最有用的方面。在一些公司中已經觀察到基於機器學習的預測化學的影響,並且化學家的採用正在增加。隨着研究人員和預測模型用戶之間的協作不斷增強,預計在開發更好的模型以及提高化學家工作流程的生產率方面將取得更大的進步。

開發了許多當前的CASP工具,以使用可靠的可重複化學方法設計合成路線。這些工具的目的不是僅建議經驗豐富的化學家無法識別的轉化。相反,特別是對於當前基於ML的CASP工具,其目的是使化學家們減輕合成設計的認知負擔。隨着用於合成設計的機器學習模型的不斷開發以及化學家對使用CASP減輕工作量的接受程度的提高,工具將得到改進,以適應化學不同領域的需求並應對合成的挑戰。

參考資料

  • Struble, Thomas & Alvarez, Juan & Brown, Scott & Chytil, Milan & Cisar, Justin & DesJarlais, Renee & Engkvist, Ola & Frank, Scott & Greve, Daniel & Griffin, Daniel & Hou, Xinjun & Johannes, Jeffrey & Kreatsoulas, Constantine & Lahue, Brian & Mathea, Miriam & Mogk, Georg & Nicolaou, Christos & Palmer, Andrew & Price, Daniel & Jensen, Klavs. (2020). Current and Future Roles of Artificial Intelligence in Medicinal Chemistry Synthesis. Journal of Medicinal Chemistry. XXXX. 10.1021/acs.jmedchem.9b02120. 

  • Science 2019. DOI: 10.1126/science.aax1566.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章