JMC | 人工智能在藥物合成中的當前和未來作用(2)

人工智能和機器學習已經證明了其在預測化學性質和小分子合成設計中的潛在作用。數據驅動的合成路線設計是由MLPDS(Machine Learning for Pharmaceutical Discovery and Synthesis)聯盟開發和評估的一部分，該聯盟包括MIT和13個化學和製藥公司成員。他們一起寫了“Current and Future Roles of Artificial Intelligence in Medicinal Chemistry Synthesis”刊登於2020年4月JMC，分享瞭如何將預測模型整合到藥物合成工作流程中，如何在MLPDS成員公司中使用預測模型以及該領域的前景。

名詞

CASP

Computer Aided Synthesis Planning

計算機輔助合成路線設計

MLPDS

Machine Learning for Pharmaceutical Discovery and Synthesis

DMTA

design, make, test, analyze

ASKCOS

Automated System for Knowledge-Based Continuous Organic Synthesis

全文分爲三個Section，本文主要介紹Section 2。

Section 1: CASP如何幫助藥物化學發現；
Section 2: 如何在製藥和化學工業中使用CASP；
Section 3:如何使CASP更好。

有很多方法可以將基於AI的CASP工具集成到藥物化學工作流程中，且採用率正在上升。下面的討論主要集中在開源ASKCOS工具的使用。研究者將其分爲多步路線設計、正向反應預測和反應條件推薦。最後，研究者將簡要討論程序接口的合併如何幫助DMTA工作流程以及MLPDS成員公司對ASKCOS功能及其在組織中採用的總體反饋。

多步路線設計

許多可用的商業和學術合成路線設計軟件都提供獨立的圖形用戶界面（GUI）或基於Web的界面，用戶可以在其中與建議的路線和預測進行交互。該軟件的目標用戶範圍從對化學反應瞭解不多的非化學家到想要簡化其合成工作流程的訓練有素的專業化學家。MLPDS聯盟的成員公司報告說，該軟件的主要用戶是專家、博士學位級別的化學家，並且報道的使用方式從冷漠到熱情和日常使用不等。許多化學家將合成設計工具與已知反應的傳統數據庫查詢並行使用，以更快地產生想法。其他用戶是計算化學家和化學工程師，他們在逆合成設計中可能沒有太多實踐經驗，但參與分子設計或工藝開發。大多數公司會試一些小規模的試驗，以選擇專業的化學家，他們在評估機器學習CASP工具的能力和確定關鍵限制方面處於優勢。

完整路線設計的原理證明已經建立，但進一步的完善將需要能夠客觀評估逆合成預測的化學家的投入。來自MLPDS成員公司的意見已經確定了一些通用趨勢，其中機器學習算法的性能良好。通常，使用ASKCOS工具與Reaxys或USPTO中發現的產物分子處於相似化學空間的靶分子往往表現良好。可以使用公認的化學方法來訪問這些靶分子，並且模型可以在其適用範圍內充分發揮作用。

基於機器學習的路線設計工具的“成功”涉及許多不同方面。這些程序是否能夠找到路線的最簡單因素之一是被認爲是可商業獲得的化合物數據庫的覆蓋範圍。簡而言之，較大的原材料數據庫會增加搜索成功終止的機率。爲了更好地瞭解可購買化學品的數據庫如何影響樹的搜索結果，葛蘭素史克比較了ASKCOS的可購買化合物的庫存數據庫(138k)和更大的內部化合物/供應商數據庫(8M)。在內部一組69個目標分子上，並使用最寬鬆的合成路線設計程序設置，ASKCOS通過庫存數據庫找到了54％的化合物，在其內部數據庫中找到了67％化合物的路線。這些結果突出了合成路線設計算法對用於停止標準的數據庫的依賴性。但是，由於每個軟件包都使用不同的的可購買數據庫，因此對可購買數據庫的依賴性使比較CASP工具變得更加複雜。通過在每個CASP工具中加載和使用自定義構建模塊的簡單實用工具的實現，可以緩解此問題。由於所有MLPDS公司成員都在內部維護大量的構建模塊，因此該要求通常很有用。

預測化學的機器學習方法的預期功能是，對專有數據進行再訓練模型應使公司能夠對內部使用的化學物質實現更好的預測能力。這些內部化學物質可能無法在公共或公開數據集中得到很好的體現對大多數CASP系統進行了培訓。AstraZeneca和University of Bern的研究人員將工作流程用於逆合成模板的提取，訓練/應用到多個公共和專有數據集，並比較了不同模型的性能。他們發現Reaxys具有最獨特的反應模板，其中在研究中使用的所有數據集之間共享2％，而Reaxys及其專有ELN數據子集之間僅共享0.6％。禮來公司從批准的實驗和研究性藥物中鑑定出6k種目標化合物的子集，以代表公司感興趣的化學領域。使用禮來公司的構建數據庫和內部合成設計平臺ChemoPrint，使用以下模板集進行逆合成擴展：1)僅禮來eLN數據，和2）禮來eLN數據加上專利數據模板。對於具有第一個模板集的6k化合物，可以找到40.1％的化合物的路線。用額外的專利模板對模板集進行補充只能使成功提供一條路線的能力提高5.8％，相當於46.9％的成功率。對於完整的路線設計，這些結果表明需要對內部和專有數據集進行進一步測試以及公司數據可能對多步路徑設計產生的影響。

仍然有許多分子結構，其合成路線無法找到任何途徑。MLPDS聯盟成員已確定缺乏完整公司規劃中的幾個公司特定目標分子或反應的覆蓋範圍。通常無法確定的在完整路線設計中不成功的子結構是小巧，功能密集的帶有或不帶有多個連續的立體中心，籠罩式結構，新發現的雜環和複雜的多環化合物。使用常規模板提取程序，由於模板的高度特異性，該模型將無法概括。相反，一些目標分子的路線設計將找到許多路徑，但包含許多不良的逆合成建議，這些區域可能無法適當預測區域選擇性或立體選擇性。爲了糾正選擇性問題，使用準確的正向預測模型進行進一步過濾將提供更豐富的路線建議。另一組失敗歸因於用於導航合成樹的搜索方法的限制。由於遞歸逆合成擴展必須限制搜索以避免組合爆炸增長，因此大多數實現尚無法在搜索路徑中導航超過15個合成步驟。如果化學家使用CASP工具來確定路線，並且路線設計無法成功導航到合成圖以生成路線，則需要另一種解決方案。

當全合成路線設計失敗時，化學家可能會使用單步逆向合成預測來手動構建路線。手動構建從數十個斷開連接到數千個斷開連接的路線是一項耗時的任務。MLPDS成員公司與MIT之間的討論產生的路線設計函數是使用單步逆向合成預測實現交互式路線設計。交互式設計程序解決了顯示各種建議並更好地控制合成設計的問題。當化學家最初開發一條路線時，離去基團的精確選擇就不再那麼重要了，隨着路線的不斷完善，將根據所需的反應性選擇特定的離去基團。用於逆合成的機器學習模型通常將所有可能的反應物作爲不同的選項進行處理。對於化學家來說，梳理具有相同基本脫離位置但離去基團不同的許多建議是不方便的。因此，開發了一種聚類算法，將相似的建議分組，並加快了對不同連接的探索。使用一種可視化效果可以顯示多個路線，可以下載和共享。儘管基本的機器學習模型都沒有更改，但是當自動合成路線設計工作失敗時，專家用戶會更樂於以交互方式探索路徑。這項成功表明，最終用戶與合成設計軟件開發人員之間的緊密協作有助於採用，特別是在用戶界面方面。

許多合成設計軟件包的一個優點是，反應模板或規則與一組特定的文獻先例相關聯。MLPDS成員公司報告說，當可以輕鬆獲取基於其預測的文獻示例時，CASP工具會更頻繁地使用。例如，ASKCOS提供了一種在訓練數據中使用與反應示例綁定的反應ID的機制，並可以將用戶引導至文獻查詢或內部反應條目。

正向反應預測

基於機器學習的正向反應預測的目的是驗證從合成路線設計中提供的路線。正向預測不會在通過GUI進行樹搜索期間自動執行，而是可以在擴展後對反應執行。實際上，正向反應預測工具主要用於識別潛在的副產物和雜質，而不是用於確定路線。與逆合成設計類似，數據的使用應通過調整用於訓練和預期性預測的化學物質/反應的類型，來提高內部訓練的質量。輝瑞公司和劍橋大學之間的最新研究表明，對數據進行適當重新訓練以進行正向預測模型確實可以提高特定化學反應的準確性。

反應條件推薦

成員公司部署的所有MLPDS模塊中，反應條件推薦使用得最少，反饋最少。先前的研究已經報告了建議將非常具體的條件限制爲單個反應類別。這些重點關注的模型並不接近專家化學家所具有的整體反應性直覺，但是在非常特定的條件是必需的也可能有用。用於條件推薦的通用模型可以爲反應執行提供良好的起點，這對於藥物化學工作流程而言將是更可取的。但是，這些通用模型會受到訓練集適用性域的限制。化學家目前可以使用ASKCOS來設計反應的一個良好起點，但是許多原因可能導致條件推薦的採用率降低。一是模型建議不夠具體（濃度、時間、添加順序等缺失）以致無法給出可行的條件。該模型提供的條件可以通過對相似轉換的文獻搜索獲得。該機制仍然是化學工作者的首選。研究者發現化學家經常使用該模型來確認他們已經提出的某些條件，或者只是評估建議並向模型開發者提供反饋。長期而言，一旦可以提出定量建議，就有機會影響自動化實驗，但是目前條件推薦的實用性受到限制。

上下文推薦模型是一種有吸引力的應用程序是幫助化學家和化學工程師在合成設計開始時就發現利用特定技術的機會。這樣可以很容易地確定出符合綠色化學原理的更有效和可持續的條件。這樣的一個例子是在諾華基於表面活性劑的技術中的應用，該技術試圖用綠色的膠束-水表面活性劑系統代替不希望的溶劑。通過使用相關內部數據訓練ASKCOS，可以設想，上下文建議模型將能夠使用靈活的用戶提供的“有利”定義，識別和提出更有利的條件，而不是現有文獻中更爲普遍的歷史條件。

用於合併到公司平臺中的程序接口

儘管圖形用戶界面是化學家使用的主要方法，但計算工具可以直接與其他計算流程集成。與內部分子設計工具的更緊密集成代表了CASP的附加價值主張，並可能帶來更大的採用率。例如，用於從內部設計模塊向路線設計軟件發送請求的程序化界面可以自動運行合成逆向擴展，並積累必要的數據，以便對目標分子進行優先排序。

禮來公司設計了一個名爲Kernel的內部工作流程，該流程可自動提交化學家的目標化合物或篩選結果，並對其進行優先排序。Kernel識別出優先化合物後，利用ChemoPrint API和禮來（Lilly）構建基塊集合對所有分子執行完整的合成路線設計，然後添加到化合物列表中；通過電子郵件將結果通知團隊成員。

巴斯夫開發了一個集成平臺，用於將文獻參考和內部電子實驗室筆記本鏈接到合成反應模板推薦，並將內部化合物原料數據庫集成到遞歸路線設計中，以優化內部資源的使用。在合成路線中使用的分子與內部用於預測物理和毒理學性質的工具套件相連，從而能夠在進行實驗室工作之前對反應的可行性和安全性進行計算機評估。

可以預見的是，編程接口也可以用於從頭分子生成。化學家對從頭方法的普遍抱怨是，這些分子不能通過合成獲得。計算出的SA分數具有速度優勢，但是使用完整的遞歸路線設計對生成分子施加偏見將確保確實存在到生成分子的路徑。當然，這限制了生成模型的化學空間，但是可合成性的改進可能值得權衡。

自動化合成平臺

合成設計是全自動反應平臺的關鍵組成部分。對自動合成平臺的研究僅限於相對較小的反應，並且在學術界和工業界都基本上處於概念驗證階段。當前的自動化平臺仍然需要大量的人員設置和計劃，但是隨着預測化學工具的集成，該過程可能會變得更加簡化。使用ASKCOS合成路線設計軟件演示了一個機會，該軟件已與機器人流程合成平臺耦合。儘管仍然需要完善(例如，指定濃度和反應時間)路線和條件建議並優化(例如，適用於流動化學)在機器人平臺上執行之前。在這種情況下，與批量化學結果的流行相比，手動干預的需求部分歸因於自動化學訓練數據的缺乏，但可以通過使用更傳統的批量方法或基於平行板的方法來規避。自動化系統的其他選項包括使用環流的閉環DMTA循環，自動化實驗室和超高通量實驗。

一些製藥公司目前正在將逆合成設計軟件集成到閉環自動化中。禮來公司，ChemoPrint已成功集成到用於化學合成的自動化平臺中。禮來公司已經證明過這一概念驗證，即整個DMTA週期可以自動化，並且在專家化學家的最少干預下即可執行。目前，這些示例僅限於單一步驟的合成計劃，並且在最初的文獻報告中並未對項目的推動產生太大影響。作爲概念的證明，該實驗證明了將CASP和自動化耦合以驅動DMTA週期的可行性。儘管對於多步合成尚未完全實現閉環導聯優化，但學術界和工業界研究人員都在迅速進步。

用戶採用

2017年，要求在三家制藥公司接受調查的一小羣化學家定義合成設計平臺的最重要特徵，以鼓勵採用。對受訪者而言，最重要的6個重要功能是：1）易於使用且直觀的界面，可與路線進行交互；2）探索與路線推薦相關的文獻先例的方法；3）用戶可以定義自己想要打破的紐帶以進行指導搜索; 4）路線以可購買的起始原料；5）官能團不相容和不穩定的化合物被鑑定，並提出了保護基團策略以繞過這些複雜性，6）實施了評分系統對路線進行排名。根據研究者的經驗，這些願望已被大多數組織的最終用戶共享。在所有重要功能中，ASKCOS軟件包和許多公司內部工具都在不同程度上實現了許多重要功能。

如前所述，用戶的範圍從非專業化學家到從業化學家。公司的許多早期評估人員都是計算化學家和信息專家，他們正在決定將正確的方法集成到工作流中的方法。專業合成化學家的自然趨勢是將喜歡的目標化合物輸入完整的路線搜索中，並尋找熟悉的路線。如果已知/已發佈的路線未顯示或在頂級建議附近排名，則可能使用戶無法使用該工具。如果爲化學家提供基礎培訓，使他們在軟件背後介紹理論以及如何有效使用每個軟件包中不同模塊的示例，則採用率會更高。重要的是，這種培訓應該傳達出數據驅動程序的一個目標是超越對已知路線的查找。建議的路線是基於對已知反應數據進行概括的預測。已經注意到有關模型如何工作，方法的目標是什麼，模型的侷限性以及如何更改輸入以獲得有用信息的說明，從而大大提高了化學家的參與度。

參考資料

Struble, Thomas & Alvarez, Juan & Brown, Scott & Chytil, Milan & Cisar, Justin & DesJarlais, Renee & Engkvist, Ola & Frank, Scott & Greve, Daniel & Griffin, Daniel & Hou, Xinjun & Johannes, Jeffrey & Kreatsoulas, Constantine & Lahue, Brian & Mathea, Miriam & Mogk, Georg & Nicolaou, Christos & Palmer, Andrew & Price, Daniel & Jensen, Klavs. (2020). Current and Future Roles of Artificial Intelligence in Medicinal Chemistry Synthesis. Journal of Medicinal Chemistry. XXXX. 10.1021/acs.jmedchem.9b02120.
Science 2019. DOI: 10.1126/science.aax1566.
Machine Learning in Computer-Aided Synthesis Planning. Accounts of Chemical Research ( IF 21.661 ) Pub Date : 2018-05-01 , DOI: 10.1021/acs.accounts.8b00087

JMC | 人工智能在藥物合成中的當前和未來作用(2)

GCLGP | 圖卷積高斯過程

MuRP | 雙曲空間下知識圖譜鏈路預測新方法

Nature Cancer | 發現非腫瘤藥物的抗癌潛力

PNA | 使用多聚合器聚合圖信息結構

ICML 2019 | 圖馬爾可夫神經網絡

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結