JMC | 人工智能在藥物合成中的當前和未來作用(1)

人工智能和機器學習已經證明了其在預測化學性質和小分子合成設計中的潛在作用。數據驅動的合成路線設計是由MLPDS(Machine Learning for Pharmaceutical Discovery and Synthesis)聯盟開發和評估的一部分,該聯盟包括MIT和13個化學和製藥公司成員。他們一起寫了“Current and Future Roles of Artificial Intelligence in Medicinal Chemistry Synthesis”刊登於2020年4月JMC,分享瞭如何將預測模型整合到藥物合成工作流程中,如何在MLPDS成員公司中使用預測模型以及該領域的前景。

名詞

CASP

Computer Aided Synthesis Planning

計算機輔助合成路線設計

MLPDS

Machine Learning for Pharmaceutical Discovery and Synthesis

DMTA

design, make, test, analyze

ASKCOS

Automated System for Knowledge-Based Continuous Organic Synthesis

全文分爲三個Section,本文主要介紹Section 1。

  • Section 1: CASP如何幫助藥物化學發現;

  • Section 2: 如何在製藥和化學工業中使用CASP;

  • Section 3:如何使CASP更好。

簡介

目前估計將一種藥物推向市場的成本超過26億美元,其中很大一部分可歸因於兩個因素:經歷過臨牀試驗的候選分子的歷史高損耗(損耗率超過85%4)以及先前發現階段的複雜性,需要大量的時間和資源投資。就總批准而言,更強大的臨牀前候選產品將對下游產生有益的影響。計算機硬件和計算機技術方面的進步旨在加快並改善藥物化學的經典設計、合成、測試、分析(DMTA)週期的各個方面。人們越來越關注的一個領域是在合成)段使用數據驅動的合成預測工具來加速和減少新分子實體合成中的失敗。

計算機輔助合成路線設計(CASP)的歷史可以追溯到1960年,當時Corey小組首次公開了LHASA,這是一種基於規則的逆向合成設計方法。該開創性出版物對於定義化學合成的啓發式方法至關重要,這對於合成計劃軟件可能是必需的。許多小組公開了1960年至1990年計算機輔助合成設計的進展,但很大程度上受到計算資源的限制,且主要依賴於人類編碼的反應規則。

這些早期的後代是某些商業軟件包的靈感來源,例如Synthia(以前稱爲Chematica)和ICSynth,其中將手編碼的反應規則與指導試探法結合使用以瀏覽合成途徑。僅在過去的二十年中,纔有了更多用於合成設計的自動化方法,例如那些使用稱爲機器學習(ML)的AI方法的子集從已發佈的反應數據中推斷反應模式的方法,成爲了基於“專家”規則的可行替代方案。算法、專家編碼規則和ML方法都可以被視爲AI方法:前者是使用製作的知識的所謂“第一波AI”的示例,而後者是使用統計學習的“第二波”的示例。每種方法都給合成設計軟件帶來了自己獨特的優勢。專家編碼的規則有機會在數據量較低的情況下表現出色,因爲對於特定的轉換而言,這種數據記錄可能只有1-4個反應。儘管有積極的研究將機器學習用於低數據,但這尚未成功地應用於合成設計。然而,由於提取/訓練過程的自動化,機器學習方法可以很容易地擴展包含新的反應,因爲它們可以自動提取/訓練,從而減輕了專家的負擔。隨着更多的反應在公司內部進行,自動過程可以使預測更加可靠。

機器學習和基於規則的方法都已證明在設計已在實驗室中執行或由化學家評估爲值得嘗試的合成路線方面取得了成功。例如,Synthia已被用來尋找藥物相關化合物的合成路線,與專家開發的路線相比,甚至還提高了總產量;Segler等發現化學家在雙盲評估中不希望使用經過文獻驗證的路線以其算法提出的路線;自動化平臺已與合成設計工具相結合,儘管人工干預水平有所不同。儘管該領域仍處於早期階段使用CASP進行全自動合成設計,這些最初的成功證明了該工具在DMTA週期中的實用性。

從2018年5月開始,麻省理工學院的研究人員團隊在藥物發現與合成機器學習(MLPDS)聯盟的背景下與13家制藥和化學公司密切合作,該聯盟的目標是開發基於機器學習的算法和工具來加快DMTA週期的製造階段(圖1)。

更具體地說,該觀點將描述人工智能在藥物合成中的許多作用,包括(1)可以整合到藥物化學工作流程中;(2)已經整合到某些製藥公司中,以及(3)需要進一步的作用。發展以完成更宏大的任務。圖2中,專注於計算機輔助合成設計(CASP)的三個主要任務:逆合成設計、反應條件推薦和正向反應預測。

基於ML的CASP的逆合設計

 

1. 確定可合成目標和路線方案

在DMTA迭代中合成新的小分子的傳統方法涉及手動計劃和手動執行。專業化學家的任務是評估擬定目標的合成能力,導致評估成百上千個分子時速度變慢。由於合成資源(SA)的原因,特定系列的先導化合物可能比其他先導化合物更可取,因爲財務資源和時間限制限制了可以並行使用或設計的化合物的數量。Retrosynthesis軟件通過生成假設的合成路線來緩解手動合成評估的瓶頸,該合成路線可用於通過易於合成來快速確定化合物的優先順序,從而爲化學家提供更爲集中的化合物集,作爲專家路線規劃的起點。最後,使用逆向合成計劃平臺可以爲那些沒有經過多年合成化學培訓的團隊成員提供有益的合成建議,這對他們而言可能是無益的。

通過可合成性對化合物評分的兩類方法是使用基於結構的簡化啓發式算法或完全逆合成樹擴展。啓發式方法旨在從分子結構中捕獲SA的廣泛趨勢,並且傳統上一直使用專家定義的分子屬性功能。非線性迴歸(例如,使用機器學習技術)可以代替概括由專業化學家分配的主觀分數,或在半監督的環境中使用以從化學反應的示例中學習。然而,實際上,合成靶標的能力高度依賴於特定的可購買構件的可用性,而不是分子結構的平滑功能。由於構建基塊的可用性取決於設置(例如組織,預算,發現與流程開發),因此一種更具通用性的評估可合成性的方法是將反合成擴展與針對應用量身定製的可購買化合物的定製數據庫一起使用。明確的逆向合成擴展的好處是,已經知道存在可以訪問感興趣目標的轉化,並且可以使用合適的起始材料。但是,它的計算成本較高。但是,通過使用逆合成規劃工具以及足夠的時間和培訓,神經網絡模型可以開始近似這種高度非線性的功能。

逆向合成計劃軟件的兩大類是使用專家編碼的規則或啓發式方法生成推薦的軟件,以及學習(或推斷)如何生成推薦的軟件。許多逆合成方法依賴於反應模板的使用-反應規則可以以SMARTS或SMIRKS格式存儲。從反應數據集中通過算法提取模板的一般步驟是:1)識別反應中心或變化的原子,2)識別與反應中心相鄰的原子,以及3)添加反應中涉及的通用官能團。該方法捕獲了局部反應環境,但在大多數算法實現中,未捕獲有助於反應性的分子的全局特徵。專家編碼的方法11可以更好地描述功能組的要求,但不能針對單個組織的能力進行定製。用於提取反應模板的自動化管道允許對適當的數據集進行輕鬆的(重新)訓練,但也與專家方法不一致。

對於實際使用反應模板從輸入產物分子生成反應物分子的方法,幾種基於機器學習的方法都集中在學習哪種模板提供最戰略性的斷開連接以及不同程度的複雜性。另一種方法是使用序列到序列模型,將一步一步的逆向合成任務視爲產物和反應物之間的轉換。單步逆向合成推薦物足以讓化學家手動構建路線,一次一步。

通過使用樹搜索,單步逆向合成功能可以擴展到完整路線設計。每個步驟可以產生成千上萬個前體,這需要一個指導性的搜索策略來防止組合爆炸。可以通過SA啓發式方法11或經驗豐富的擴展策略15過濾候選前體,以獲取更易處理的化學品清單,以在下一個週期中進行轉換。可以通過遞歸地建議逐步逐步簡化直到滿足停止標準的單步逆合成前體來構建完整途徑。已經研究了樹搜索的不同實現方式,包括深度優先,最佳優先,證明數搜索和蒙特卡洛樹搜索算法;直接比較方法很困難,因爲定量評分仍然是一個挑戰。通常,一旦發現可以購買的前體,則逆合成搜索終止。這使基準迴歸合成算法複雜化,因爲更大,更多樣化的可購買化學品數據庫將具有更高的終止概率,並且自然會顯得更加成功。可以使用其他停止標準,例如文獻中的出現次數或化學邏輯(定義允許的碳,氮和氧原子數),後者可以提供更高的標準化程度,但與實際應用無關。而且,鑑定途徑的能力不能保證其化學可行性。由於可以通過多種途徑合成同一靶標,因此最好的驗證方法是在實驗室中進行化學反應。對於生成的每條路線而言,這樣做顯然是非常昂貴的,而且耗時,而且不是驗證合成規劃中新方法的可擴展方法。

 

2. 建議和評估反應條件

計劃反向合成路線僅是整個CASP系統的一個方面。爲了建議化學家可以進入實驗室,我們必須提出一套能夠實現所需轉化的反應條件。爲反應找到最佳或可接受的條件集可能需要耗時的經驗篩選,才能確定最有效的方法。通常,化學家會針對該反應家族採用“典型”條件,而不會根據特定的目標底物來調整其選擇。選擇反應條件的偏差可能來自於個人經驗或試劑的即時可用性。原則上,如果對歷史條件數據進行適當訓練,則用於條件推薦的機器學習模型可以更客觀地推斷出合適的條件。

實際上,由於缺乏高質量的數據,很難開發這種模型。阻礙進展的主要數據問題是未充分披露1)數量,體積或濃度2)反應時間或動力學,以及3)試劑和催化劑的添加順序。儘管存在這些問題,但數據驅動的方法已證明能夠爲特定的反應類別和更多樣化的反應組建議條件。這些模型爲經驗條件下反應條件的優化提供了堅實的基礎,但仍缺乏執行所需的全部細節。條件推薦模型可能會被開發來適應特定化學領域(例如藥物化學或過程化學)的需求。在許多情況下,反應的目標是不同的,例如產率的重要性和副產物的形成。一個目標可能是預測我們希望在單個孔板中平行進行的一組反應的“最佳”條件。在設計新的條件組合或新的催化劑或試劑的情況下,可能需要更具體的預測來找到單個反應的最佳條件。

儘管很難逃避對反應條件的經驗優化,尤其是對於複雜的底物或串聯催化,但人工智能技術也有機會加速這一過程。反應優化是一個公認的領域,並且存在許多用於選擇實驗條件以迭代地改善性能(例如,就產率,週轉數,通過量而言)的統計技術。用機器學習的話來說,這些是活躍的學習框架。最受歡迎的方法是基於模型的技術,該技術可根據反應條件構建反應性能的替代模型。可以在這些模型上分層放置各種搜索策略(例如,貝葉斯優化),以幫助選擇下一組條件來嘗試和優化模型。儘管這些概念並不新鮮,但是基於機器學習的模型有潛力提供更好的性能和不確定性估計,從而加快搜索速度。

 

3. 正向反應預測

CASP的第三個關鍵任務是通過預測(至少定性地)反應產物,確保通過算法綜合設計獲得的建議是可靠且可行的。化學家可能會通過搜索相似的轉化,閱讀文獻並確定合成方法是否能推廣到感興趣的底物來評估反應的可行性。數據驅動技術經過廣泛的反應訓練後,可以學習執行相同的概括。用於反應預測的機器學習方法包括嘗試從規則或模板的預定義列表中推導反應規則,預測從起始材料到產物的原子和鍵變化的圖卷積神經網絡,以及預測產物SMILES的序列到序列模型。與逆合成模型的評估相比,正向合成模型更易於定量評估,因爲原則上只有一個真實答案。然而,實際上,缺乏精確的濃度,時間和溫度數據使反應預測成爲一個不適定的問題。

這些正向反應預測因子也可以用於副產物預測。瞭解最可能的產品有助於識別可能產生有害或難以分離的中間體的反應。許多反應可導致多種區域或立體異構化合物。有關反應選擇性和可能的副產物的信息是確定合成優先級的關鍵方面,並且可能有助於結構分配。一旦這些模型能夠做出定量預測,它們對於純化策略的考慮和設計將是必不可少的。

除用於CASP外,還有其他用於反應預測的應用程序。根據專家定義的反應模板列舉了許多按需製造的虛擬庫,這些模板專注於旨在確保其功能強大的有限化學組合。據報道,按需定製庫中的化合物在4周內成功交付了約85%,在6周內成功交付了93%。54如此高的成功率證明了使用成熟的化學方法進行基於規則的方法的魯棒性。使用啓發式提取的模板或不使用模板的方法,可以將新的反應空間(例如,新出版物中描述的新穎的合成方法)實時地包含在自動化管道中。如果確定了目標並制定了逆合成計劃,則可以搜索可用替代原料的所有組合。例如,如果第一反應是Suzuki偶聯,則可列舉所有可用的硼酸和芳基鹵化物的組合。然後,前向預測變量可用於對哪些組合可能導致成功的反應進行評分。通過根據感興趣的化合物的性質進一步對這組數據進行排名,可以快速評估目標周圍可訪問的化學空間,例如,用於藥物發現中的命中擴展。此功能與將面向多樣性的綜合目標集成到CASP中密切相關。

參考資料

  • Struble, Thomas & Alvarez, Juan & Brown, Scott & Chytil, Milan & Cisar, Justin & DesJarlais, Renee & Engkvist, Ola & Frank, Scott & Greve, Daniel & Griffin, Daniel & Hou, Xinjun & Johannes, Jeffrey & Kreatsoulas, Constantine & Lahue, Brian & Mathea, Miriam & Mogk, Georg & Nicolaou, Christos & Palmer, Andrew & Price, Daniel & Jensen, Klavs. (2020). Current and Future Roles of Artificial Intelligence in Medicinal Chemistry Synthesis. Journal of Medicinal Chemistry. XXXX. 10.1021/acs.jmedchem.9b02120. 

  • Science 2019, DOI: 10.1126/science.aax1566

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章