深度學習研究及其在生物醫藥領域的潛在應用

深度學習已經在各種生物學應用中取得成功。在本節中,我們回顧了在各個研究領域進行深度學習的挑戰和機會,並在可能的情況下回顧將深度學習應用於這些問題的研究(表1)。我們首先回顧了生物標誌物開發的重要領域,包括基因組學,轉錄組學,蛋白質組學,結構生物學和化學。然後,我們回顧一下藥物發現和再利用的前景,包括使用多平臺數據。
生物標誌物生物醫學的一個重要任務是將生物學數據轉化爲反映表型和物理狀態(如疾病)的有效生物標誌物。生物標誌物對於評估臨牀試驗結果[18]以及檢測和監測疾病,特別是像癌症這樣的異質性疾病,是至關重要的。識別敏感特異性生物標誌物對於現代轉化醫學來說是一個巨大的挑戰。計算生物學是生物標誌物發展。事實上,從基因組學到蛋白質組學都可以使用任何數據來源;這些在下一節中討論。

基因組學新一代測序(NGS)技術已經允許生產大量的基因組數據。這些數據的大部分分析都可以用現代計算方法在計算機上進行。這包括基因組的結構註釋(包括非編碼調控序列,蛋白質結合位點預測和剪接位點)。
基因組學的一個重要分支是宏基因組學,也被稱爲環境,生態基因組學或社區基因組學。NGS技術揭示了未經培育且以前沒有得到充分研究的微生物的自然多樣性。
宏基因組學中有幾個生物信息學挑戰。一個主要挑戰是序列數據的功能分析和物種多樣性的分析。深信念網絡和經常性神經網絡的使用已經允許通過表型分類宏基因組學pH數據和人類微生物組數據。 與基線方法相比,這些方法並沒有提高分類準確性作爲強化學習,但確實提供了學習數據集的分層表示的能力.但是,Ditzler等強調DNN可以改善現有的宏基因組學分類算法,特別是在大數據集和適當選擇網絡參數的情況下。
在這裏插入圖片描述在這裏插入圖片描述 a首字母縮寫詞:CNN=卷積神經網絡,DNN=深度神經網絡,RNN=遞歸神經網絡,DBN=深信念網絡,RBM=限制玻爾茲曼機器,MLP=多層感知器,MLFS=多級特徵選擇,PINN= 網絡,CRF=條件隨機場。

轉錄。轉錄組學分析利用各種類型轉錄物(信使RNA(mRNA),長非編碼RNA(lncRNA),微小RNA(miRNA)等)丰度的變化來收集各種功能信息,從剪接代碼到各種疾病的生物標誌物。
轉錄組學數據通常從不同類型的平臺(各種微陣列平臺,測序平臺)獲得,其不同之處在於測量的基因組和信號檢測方法。許多因素導致基因表達數據的變異性。因此,即使對於單個平臺分析也需要標準化。 跨平臺分析需要規範化技術,這可能是一個重大挑戰。由於DNN具有較高的泛化能力,因此特別適合於跨平臺分析。他們也能很好地處理基因表達數據的其他一些主要問題,比如數據集的大小以及對降維和選擇性/不變性的需求,下面我們將回顧幾個已經使用的DNN 用不同類型的基因表達數據來獲得不同程度的成功。
表格數據應用程序。基因表達數據可以表示的一種方式是作爲矩陣的表格形式,其包含關於轉錄物表達的定量信息。這些數據是高維度的,由於數據中的信噪比損失,使得統計分析成爲問題。[25]

高維數據可以通過兩種方式處理:
I. 降維:
A.特徵提取,例如用SVM或隨機森林算法
B.特徵子集選擇;
C.途徑分析;
II. 使用對高維度較不敏感的方法,如隨機森林或深層信念網絡。

諸如主成分分析(PCA),奇異值分解,獨立分量分析或非負矩陣分解等方法是常見的前沿方法。然而,上述方法將數據轉換成許多難以用生物學解釋的組件。此外,這種降維方法基於基因表達譜提取特徵而不管基因之間的相互作用。通路分析可以減少變量的數量,減少錯誤率並保留更多的生物相關信息。[25,26]

深度學習在處理高維基質轉錄組學數據方面也取得了一些成功。在另一種方法中,將基因表達的特徵與非編碼轉錄物如miRNA的區域一起提取; 這是通過使用深度信念網絡和主動學習來實現的,其中使用了深度學習特徵提取器來減少六個癌症數據集的維度,並且勝過了基本特徵選擇方法[27]。主動學習與分類的應用提高了準確性,並且允許選擇與癌症相關的特徵(改進的癌症分類),而不僅僅基於基因表達譜。使用miRNA數據的特徵選擇是使用與先前選擇的特徵子集的目標基因的關係實施的。

在另一個深度學習應用中,Fakoor等人利用自編碼器網絡進行推廣,並將其應用於使用從具有不同基因集合的不同類型的微陣列平臺(Affimetrix家族)獲得的微陣列基因表達數據的癌症分類[28]。他們通過PCA和非監督非線性稀疏特徵學習(通過自動編碼器)結合使用降維來構建用於微陣列數據的一般分類的特徵。癌症和非癌細胞分類的結果顯示出了重要的改進,特別是使用監督微調,這使得特徵不那麼通用,但即使對於沒有跨平臺標準化的數據也能獲得更高的分類準確性。自動編碼器的全球泛化能力有助於使用不同微陣列技術收集的數據,因此可能對來自公共領域的數據進行大規模綜合分析有前途。

圖像處理應用。基因表達也可以以可視形式存儲爲圖像,例如來自微陣列的圖像熒光信號或RNA原位雜交熒光或放射性信號。 在一些應用中,以圖像處理性能優越著稱的CNN已經顯示出改善這些圖像分析的潛力。

在微陣列分析中,由於斑點大小,形狀,位置或信號強度的變化,檢測信號和識別熒光斑點可能是具有挑戰性的,並且熒光信號強度通常對應於基因或序列表達水平差。在對這個問題的深度學習技術的一個應用中,CNN被用於微陣列圖像分割,並且在準確性方面顯示出類似於基準方法的準確度的結果,但是訓練更簡單並且對計算源的要求更少。[29]

將CNN應用於基於圖像的基因表達數據的另一個機會是RNA原位雜交,這是一種繁瑣的技術,當允許這樣的操作時,能夠使基因表達在一組細胞,組織切片或整個生物體中定位和可視化。這種方法促進強大的縱向研究,說明發展過程中的表達模式的變化。它被用於構建詳細的Allen DevelopmentMouse Brain Atlas,其中包含超過2000個基因的表達圖譜,每個基因在多個腦部分中進行說明。過去,這些手動標註是耗時的,昂貴的,有時也是不準確的。然而,最近,Zeng等人使用深度預訓練CNN進行自動註釋[30]。要做到這一點,神經網絡模型訓練原始自然原位雜交圖像的不同層次的發展中國家的大腦沒有關於座標(空間信息)的確切信息;這種技術在四個發展階段的多個大腦水平上實現了卓越的準確性。

剪接。深度學習的另一個應用領域是剪接。剪接是在真核生物中提供蛋白質生物多樣性的主要因素之一;此外,最近的研究顯示“拼接代碼”與各種疾病之間的聯繫[31]。然而,現代科學仍然不能全面地理解控制剪接調控的機制。剪接調節的現代概念包括轉錄水平,特定信號調節序列元件(剪接增強子或沉默子)的存在,剪接位點的結構和剪接因子的狀態(例如特定位點的磷酸化可能改變剪接因子活性)。所有這些因素使分析變得複雜,因爲它們之間存在大量元素和複雜的非線性相互作用。現有的拼接預測軟件需要高通量測序數據作爲輸入,並且面臨着原始讀取比常規基因短的問題,以及基因組中假性基因的高重複水平和存在。因此,拼接機制的分析算法很慢,需要高度的組合計算來源,深度學習可能會在這方面提供改進。在使用五個組織特異性RNA-seq數據集的一個深度學習應用中,使用隱變量來開發DNN以用於基因組序列和組織類型中的特徵,並且被證明優於貝葉斯方法預測個體內和組織間的組織剪接外顯子拼接的轉錄本百分比的變化(拼接代碼度量)[32]。

非編碼RNA。非編碼RNA是生物學中的另一個問題,需要複雜的計算方法,如深度學習。非編碼RNAs非常重要,涉及轉錄,翻譯和表觀遺傳學的調控[33],但是它們仍然難以與編碼蛋白質的RNA區分開來。對於短的非編碼RNA,這個任務已經很好地解決了,但是對於lncRNA來說這是相當具有挑戰性的。lncRNAs組成異構類,可能含有推定的複製起點(ORF),短的蛋白質樣序列。開發了一種新的深層次的學習方法,稱爲lncRNAMFDL,用於鑑定lnc-RNAs,使用ORF,k相鄰鹼基,二級結構和預測的編碼結構域序列等多種特徵的組合[34]。該方法使用從Gencode(lncRNA)和Refseq(蛋白質編碼mRNA數據)的序列數據中提取的五個單獨特徵,並且在人類數據集中導致97.1%的預測準確性。

表達量性狀基因座分析。最後,數量性狀基因座(QTL)分析有潛力進行深入的學習。 QTL分析鑑定含有多態性的遺傳基因座,所述多態性導致複雜的多基因性狀(例如,體重,藥物反應,免疫應答)的表型變異。顯示遺傳變異的一個這樣的“性狀”是給定組織和/或條件中任何給定基因的表達或轉錄本丰度。表達QTL(eQTL)是影響轉錄本丰度的遺傳變異的基因座。 eQTL分析已經導致了對人類基因表達調控的洞察力,但面臨着許多挑戰。在局部調節表達的eQTL(順式-eQTL)相對容易用有限數量的統計測試來鑑定,但是調節基因組中其它位置的基因表達的位點(trans-eQTL)更難以檢測到。最近,爲了解決使用各種編碼的生物特徵(諸如物理蛋白質相互作用網絡,基因註釋,進化保守,局部序列信息以及來自ENCODE項目的不同功能元件)的反式eQTL預測問題的深度學習方法MASSQTL[35]被提出。DNN利用來自其各自交叉驗證摺疊的9個DNN模型,優於其他機器學習模型,並且提供了對基因表達的調控架構的基礎的新機制。深解碼系統也被用來對trans-eQTL特徵向量進行聚類,然後通過t-SNE降維技術進行可視化。

蛋白質組學。與轉錄組學相比,蛋白質組學是一個相當欠發達的研究領域,數據依然稀少,用於分析的計算方法較少。即使有相似的信號編碼和傳輸機制,人類蛋白質組學數據的缺乏以及將模型生物體結果轉化爲人類的困難也使分析變得複雜。

深度學習可以以多種方式使蛋白質組學受益,因爲一些方法不需要像其他機器學習算法那樣的大量培訓案例。深度學習方法的其他優點是他們建立數據的分層表示,並從複雜的相互作用中學習一般特徵,從而有利於蛋白質的蛋白質組學和網絡分析。例如,使用磷酸化數據,雙峯深信念網絡已被用於預測大鼠細胞對相同刺激的刺激的細胞反應[36]。與傳統的管線相比,開發的算法獲得了相當的準確性。

結構生物學和化學。結構生物學包括蛋白質摺疊分析,蛋白質動力學,分子建模和藥物設計。二級和三級結構是蛋白質和RNA分子的重要特徵。對於蛋白質,適當的結構測定對於酶功能預測,催化中心和底物結合的形成,免疫功能(抗原結合),轉錄因子(DNA結合)和轉錄後修飾(RNA結合)是重要的。喪失適當的結構會導致功能喪失,並且在某些情況下會導致可能導致神經退行性疾病(如阿爾茨海默病或帕金森病)的異常蛋白質的聚集。[37]

基於複合同源性的比較建模是預測蛋白質二級結構的一種可能方式,但是受現有註釋良好的化合物的量限制。另一方面,機器學習從頭預測是基於公認的具有公知結構的化合物的模式,但是還不夠精確以至於不能實際使用。從頭開始使用深度學習方法通過使用蛋白質測序數據改進了結構預測[38]。同樣,深度學習已經被應用於使用ASTRAL數據庫數據和複雜的三階段方法來預測二級結構元素和氨基酸殘基之間的接觸和取向[39]。所使用的方法是分析偏倚和高度可變數據的有效工具。

三維結構的不變性在功能上也是重要的。然而,有幾種蛋白質沒有獨特的結構參與基本的生物過程,如細胞週期的控制,基因表達的調控,分子信號傳遞。此外,最近的研究顯示一些無序蛋白質的顯着性[37]; 許多癌基因蛋白具有非結構域,並且錯誤摺疊蛋白的異常聚集導致疾病發展[40]。這種沒有固定三維結構的蛋白被稱爲固有無序蛋白(IDP),而沒有恆定結構的結構域被稱爲固有無序區(IDR)。

許多參數將IDP / IDR與結構化蛋白質區分開來,從而使預測過程具有挑戰性。這個問題可以使用深度學習算法來解決,這些算法能夠考慮各種各樣的特徵。2013年,Eickholt和Cheng發表了一個基於序列的深度學習預測指標DNdisorder,與先進的預測指標相比,改進了對無序蛋白質的預測[41]。後來在2015年,Wang等人提出了一種新的方法,DeepCNF,使用來自蛋白質結構預測的臨界評估(CASP9和CASP10)的實驗數據,能夠準確預測多個參數,如IDPs或具有IDR的蛋白質。DeepCNF算法通過利用衆多特徵,比基線單從頭(從頭算)預測指標執行得更好[42]。

另一類重要的蛋白質是結合單鏈或雙鏈RNA的RNA結合蛋白。 這些蛋白質參與RNA的各種轉錄後修飾:剪接,編輯,翻譯調控(蛋白質合成)和聚腺苷酸化。RNA分子形成不同類型的臂和環,需要識別和形成RNA和蛋白質之間連接的二級和三級結構。RNA的二級和三級結構是可預測的,並且已經被用於建模結構偏好偏好和通過應用深度信念網絡預測RBP的結合位點[43]。深度學習框架在真正的CLIP-seq(交聯免疫沉澱高通量測序)數據集上進行了驗證,以顯示從原始序列和結構分佈中提取隱藏特徵的能力,並準確預測RBP的位點。

藥物發現和再利用。計算藥物生物學和生物化學廣泛應用於藥物發現,開發和再利用的幾乎每個階段。過去數十年來,不同的研究團體和公司在全球範圍內開發了大量用於計算機模擬藥物發現和目標延伸的計算方法,以減少時間和資源消耗。雖然存在許多方法[44],但是還沒有一個是最優的(例如,無法執行通量篩選或者通過蛋白質類別進行限制),現在一些研究表明深度學習是一個重要的考慮方法(表1)。

藥物發現的重要任務之一就是預測藥物靶點的相互作用。 靶標(蛋白質)通常具有一個或多個與底物或調節分子的結合位點; 這些可以用於建立預測模型。 然而,包括其他蛋白質的成分可能會給分析帶來偏見。成對輸入神經網絡(PINN)接受具有從蛋白質序列和靶分佈獲得的特徵的兩個載體的能力被Wang等人用來計算靶標-配體相互作用[45]。神經網絡的這種優勢比其他代表性的靶標-配體相互作用預測方法有更好的準確性。

藥物發現和評估是昂貴,耗時且具有風險; 計算方法和各種預測算法可以幫助降低風險並節省資源。一個潛在的風險是毒性; 例如,肝毒性(肝毒性)是從生產中去除藥物的常見原因。用計算方法預測肝毒性可能有助於避免可能的肝毒性藥物。使用深度學習,可以有效地確定原始化學結構的化合物毒性,而不需要複雜的編碼過程[46]。使用CNN也可以預測諸如環氧化的性質,這意味着高反應性和可能的毒性; 這是休斯等人首次實施的。通過使用環氧化分子和氫氧化物分子的簡化分子輸入線入口規格(SMILES)格式數據作爲陰性對照[47]。

多平臺數據(Multiomics)。使用多平臺數據的能力是深度學習算法的主要優勢。 由於生物系統複雜,具有多個相互關聯的元素,基因組學,表觀基因組學和轉錄組學數據的系統級整合是提取最有效且有生物學意義的結果的關鍵。整合過程在計算上不是微不足道的,但收益是生物標誌物特異性和靈敏度比單一來源方法的增加。

計算生物學中需要分析組合數據的主要領域之一是計算表觀遺傳學。有聯合分析基因組,轉錄組,甲基化組特徵和組蛋白修飾提供了準確的表觀基因組預測。

一些研究人員已經開發出深度學習方法,可用於分析來自多個來源的數據(表1)。Alipanahi等人開發了基於深度學習的方法DeepBind(tools.genes.toronto.edu/deepbind/),以在各種疾病中計算核苷酸序列結合轉錄因子和RNA結合蛋白的能力,並表徵單點突變對結合特性的影響。DeepBind軟件受CNN啓發,對技術不敏感; 相反,它與從微陣列到序列的定性不同形式的數據是相容的。CPU的實現也允許用戶並行化計算過程[48]。在另一個基於CNN的應用程序中,Zhou和Troyanskaya設計了DeepSEA框架來預測染色質特徵和疾病相關序列變異的評估。與其他計算方法不同,他們的算法能夠捕獲每個結合位點的大規模上下文序列信息,用於註釋從頭序列變異體[49]。開發了類似的CNN管線,揭示了序列變異對染色質調控的影響,並對DNase-seq(DNase I測序)數據進行了培訓和測試[50]。一種名爲Bassed的深度學習軟件優於基線方法,並且在所有數據集上達到平均AUC0.892。最後,隨着深層特徵選擇模型的發展,深度學習被用於識別主動增強器和促進器,該模型利用了DNN對複雜非線性相互作用進行建模的能力,並學習了高層次的廣義特徵[51]。模型從多平臺數據中選擇特徵,並按照重要性進行排序。在這些應用中,深度學習方法是染色質性質的更敏感和更有力的預測因子,也是複雜生物標誌物發展的關鍵。

癌症是一組異質性疾病的廣泛名稱,其中一些是由基因突變引起的,因此使用多平臺數據的癌症分類可以揭示潛在的病理學。Liang等人開發了一個具有多平臺數據的深層信念網絡模型,用於癌症患者的聚類[52]。使用受限玻爾茲曼機對每種輸入模式定義的特徵進行編碼。這種方法的一個優點是深層信念網絡不需要具有正態分佈的數據,因爲其他聚類算法和遺傳(生物)數據不是正態分佈的。

最後,從自然語言處理的角度來看,深度學習在通過巨大的非結構化(研究出版物和專利)和結構化數據(知識註釋圖,如基因本體論[53]或Chembl[54])瀏覽時,通過檢驗假設的合理性。這些數據庫一起形成了一個龐大的,多平臺的數據集,如果結合起來,這些數據集將更加豐富和全面。

總之,現代生物數據的龐大規模,對於以人爲本的分析來說太龐大而複雜。 機器學習,特別是深度學習與人類專業知識相結合,是將多個大型多平臺數據庫完全集成的唯一途徑。 深度學習使人類能夠做到以前無法想象的事情:具有數百萬輸入的圖像識別,語音識別以及接近人類能力的語音自動化。 雖然深度學習和特別是無監督的深度學習仍處於起步階段,特別是在生物學應用方面,但最初的研究支持它作爲一種有希望的方法,儘管在實施中不受限制和挑戰,但可以克服生物學數據的一些問題, 對數百萬間接和相互關聯的疾病機制和途徑的新見解。
————————————————更多科研文章請關注我們吧!
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章