Nature | 機器學習在藥物研發中的應用

原文鏈接:https://blog.csdn.net/u012325865/article/details/92778433

Nature | 機器學習在藥物研發中的應用

2019-06-18 12:48:18 qq2648008726 閱讀數 443更多

分類專欄: Chemoinformatics Bioinformatics 機器學習

本文爲博主原創文章,未經博主允許不得轉載。

本文鏈接:https://blog.csdn.net/u012325865/article/details/92778433

摘要

藥物研發管線漫長、複雜且取決於許多因素。機器學習(ML)通過豐富且高質量的數據改進指定問題的發現和決策。機器學習在藥物發現的所有階段都有應用:靶標驗證、生物標誌物的鑑定和臨牀試驗中數字病理學數據的分析。應用程序的範圍和方法不同,有些方法可以產生準確的預測和解釋。應用機器學習的主要挑戰在於ML產生的結果缺乏可解釋性和可重複性,可能限制其應用。在所有領域,仍然需要生成系統和全面的高維數據。

 

介紹

生物系統是發育和疾病期間複雜的信息來源。 現在使用大量的“組學”和智能技術系統地測量和挖掘這些信息。針對生物學和疾病的高通量方法的出現爲製藥業帶來了挑戰和機遇,其目的是確定可用於開發藥物的治療假設。許多因素的最新進展導致對製藥工業中機器學習方法的使用興趣增加;再加上無限可擴展的存儲ML提供基礎的數據集類型,增加了製藥公司能夠訪問和組織更多數據的機會。數據類型可以包括圖像、文本信息、生物特徵、來自可穿戴設備的其他信息和高維組學數據。

 

人工智能(AI)領域已經從大量的理論研究轉向現實世界的應用。這種爆炸性增長的大部分與圖形處理單元(GPU)等新計算機硬件的廣泛可用性有關。新的ML算法的從數據構建強大的模型以及這些技術在衆多公共競賽中的成功,有助於增加ML在製藥公司中的應用。儘管許多消費者服務行業早已採用ML領域的新方法,但製藥行業的採用率一直滯後。 衆所周知,藥物開發的成功率在所有治療領域和整個製藥行業都非常低。最近對21143種化合物的研究發現,總體成功率低至6.2%。 因此,製藥行業中使用ML技術的許多理由是由業務需求驅動以降低總體損耗和成本。

 

藥物研發的所有階段,包括臨牀試驗已着手開發和利用ML算法和軟件來識別新靶點,爲靶標-疾病關聯提供更有力的證據,改進小分子化合物的設計和優化,增加對疾病機制的理解,增加對疾病和非疾病表型的瞭解,爲藥物療效開發新的生物標誌物,改進患者監測和可穿戴設備的生物特徵和其他數據分析,增強數字病理成像並從圖像中提取高含量信息的水平。

許多製藥公司已開始投資資源、技術和服務,以生成和策劃數據集支持該領域的研究。此外,IBM和谷歌等技術巨頭,生物技術初創企業和學術中心不僅提供基於雲的計算服務,還與行業合作伙伴一起在製藥和醫療保健領域合作。

機器學習工具箱

從根本上說,ML是使用算法解析數據,從數據中學習然後對任何新數據集的未來狀態做出決策或預測的實踐。 因此,不是使用一組特定指令手動編寫軟件來完成特定任務,而是使用大量數據和算法對機器進行訓練,使其能夠學習如何執行任務。程序員編碼用於訓練網絡的算法而不是編碼專家規則。

 

隨着可用於學習的數據的數量和質量的增加,算法自適應地改善其性能。 因此,ML最適用於解決大量數據和若干變量即將出現的問題,但與這些問題相關的模型或公式尚不清楚。

 

ML有兩種主要類型的技術:監督和無監督學習。 監督學習方法用於開發訓練模型以預測數據類別或連續變量的未來值,而無監督方法用於探索目的以開發能夠以用戶未指定的方式聚類數據的模型。監督學習訓練已知輸入和輸出數據關係的模型,以便它可以預測新輸入的未來輸出。 未來的輸出通常是數據分類的模型或結果,或者是對最有影響變量的理解。 無監督學習技術識別輸入數據中的隱藏模式或內在結構,並使用它們以有意義的方式聚類數據。

 

模型選擇

良好ML模型的是從訓練數據到測試數據很好地概括。泛化指的是模型學習的概念在訓練期間應用於模型未見的數據的程度。每種技術中存在幾種方法,它們的預測準確度、訓練速度和它們可以處理的變量的數量不同。 必須仔細選擇算法,以確保適合於眼前的問題以及可用數據的數量和類型。所需的參數調整量以及該方法將信號與噪聲分離的程度也是重要的考慮因素。

 

當模型不僅學習信號而且學習訓練數據的一些不尋常特徵並將這些特徵結合到模型中時,模型過度擬合發生,從而對模型在新數據上的性能產生負面影響。欠擬合指的是既不能對訓練數據建模也不能推廣到新數據的模型。限制過度擬合的典型方法是應用重採樣方法或阻止部分訓練數據用作驗證數據集。隨着模型複雜性的增加,正則化迴歸方法會增加參數的懲罰,從而迫使模型推廣數據而不是過度擬合。避免過度擬合的最有效方法之一是dropout方法,它隨機刪除隱藏層中的單位。不同的ML技術具有不同的性能指標。基本評估指標,如分類準確度、曲線下面積(AUC),對數損失和混淆矩陣可用於比較各種方法的性能。

 

數據特徵

據說ML的實踐包括至少80%的數據處理和清理以及20%的算法應用。因此,任何ML方法的預測能力取決於高質量的大量數據的可用性。用於訓練的數據需要準確、精確並儘可能完整,以便最大限度地提高可預測性。實驗設計通常涉及關於理想樣本大小的討論以及用於正確估計該參數的適當功率計算。是否可以獲得正確類型的數據以及應該通過實驗生成哪些數據也是某些問題的關鍵考慮因素。當用於以系統方式生成的數據時,ML應用程序更加強大,具有最小的噪聲和良好的註釋。許多應用程序並不是特別有效,因爲數據是從具有可變數據質量的多個來源組合而來的。目前正在努力開發藥物發現的特定領域中的開放註釋數據,例如靶標驗證。這些目標旨在在藥物發現和開發中重要的領域產生高質量的正面和負面註釋,以促進ML的應用。

 

ML在藥物發現中主要應用

靶標確診和有效性

小分子設計和優化

預測生物標誌物

計算病理學


參考

Applications of machine learning in drug discovery and development Nature Reviews Drug Discovery ( IF 50.167 ) Pub Date : 2019-04-11 , DOI: 10.1038/s41573-019-0024-5 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章