Bioinformaties 2018 (B類)
文章目錄
Abstract
Motivation: 在計算機上準確預測藥物-靶標相互作用(DTI)可以指導藥物發現過程,從而促進藥物開發。 採用系統生物學觀點的DTI預測計算方法通常採用以下原理:藥物和靶標的特性可以通過其在生物網絡中的功能角色來表徵。
Results:受信息傳遞和聚合技術的最新發展的啓發,這些技術可以使卷積神經網絡通用化以挖掘大規模圖數據並大大提高許多與網絡相關的預測任務的性能,我們開發了一種新的非線性端到端學習模型,稱爲NeoDTI,可整合來自異構網絡數據的各種信息,並自動學習保留藥物和靶標的拓撲結構表示,以促進DTI預測。相對於其他最新的DTI預測方法以及數種新穎的預測DTI有了實質性的預測性能改進,並且有先前研究的證據支持,這證明了NeoDTI的超強預測能力。此外,NeoDTI可以抵抗多種選擇的超參數,並準備整合更多與藥物和靶標相關的信息(例如化合物-蛋白質結合親和力數據)。所有這些結果表明NeoDTI可以爲藥物開發和藥物重新定位提供強大而強大的工具。
Introduction
2 Materials and methods
2.1 Problem formulation
NeoDTI從與藥物和靶標相關的異質網絡中預測未知的DTI,其中藥物,靶標和其他對象表示爲節點,而DTI和其他交互作用或關聯表示爲邊。 我們首先介紹異質網絡(HN)的定義。
定義1(異質網絡).異質網絡定義爲有向圖(或無向圖); 其中節點集中的每個節點都屬於對象類型集合中的對象類型,而邊集中的每個邊都屬於關係類型集中的關係類型 。
在我們的框架中用於構造異構網絡的數據集(另請參見第3.1節)包括對象類型集O = {drug, target, side-effect, disease}和關係類型集R = {drug-structure-similarity, drug-side-effect-association, drug-protein-interaction, drug-drug-interaction, drug-disease-association, protein-sequence-similarity, protein-drug-interaction, protein-disease-association, protein-protein-interaction, disease-protein-association, disease-drug-association, side-effect-drug-association}在我們當前的框架中,每個節點僅屬於一個對象類型,儘管可以相對容易地擴展到多對象類型的映射場景。 此外,所有邊緣均爲無方向且非負加權。 同樣,相同的兩個節點可以通過多個邊鏈接.例如, 兩種藥物可以同時通過drug-drug-interaction的邊和drug-structure-similarity邊相連。
2.2 The workflow of NeoDTI
NeoDTI包括以下三個主要步驟:
- 鄰居信息聚合
- 更新節點嵌入
- 節點嵌入的拓撲保存學習
通過步驟1和2,給定異質網絡中的每個節點通過將其鄰域信息與其自身的特徵進行集成來生成新的特徵表示。通過步驟3,我們強制將節點嵌入進行拓撲保存,這對於提取單個節點的拓撲特徵以進行準確的DTI預測很有用。 接下來,我們將介紹這三個步驟的數學公式。
-
定義2(鄰居信息聚合).
給一個異質網絡, 一個初始化節點嵌入函數,將每個節點映射到其維向量表示和邊權重映射函數, 將每個邊映射到其邊權重, 節點的鄰居信息聚集定義爲:
其中表示通過類型的邊連接到的相鄰節點的集合。代表通過權重參數化的單層神經網絡上的非線性激活函數。偏差和代表歸一化項。更具體地說,對於每個邊類型,可以通過首先非線性轉換相應相鄰節點的嵌入特徵表示來獲得節點相對於的鄰域信息聚合操作。通過特定的邊的單層神經網絡,該網絡由權重,偏差和非線性激活函數進行參數化。 然後平均歸一化的邊緣權重,即。最後,節點的鄰域信息聚合操作的輸出是針對每個邊類型r的鄰域信息聚合的總和。 在此,初始化節點嵌入, 通過隨機映射獲得。
-
定義3(更新節點嵌入).
給定所有節點的彙總鄰居信息,更新節點嵌入的過程定義爲:
上面的等式表明,可以使用由權重,偏置項和非線性激活函數參數化的單層神經網絡來獲得節點的新嵌入,以非線性地轉換原始嵌入和鄰居聚集信息,然後通過其範數進行歸一化。 -
定義4(節點嵌入的拓撲保存學習).
給定節點的嵌入,將該節點嵌入的拓撲保留學習定義爲:
其中是特定的邊投影矩陣。上式表示,在分別由分別對和進行特定邊的投影之後,兩個投影向量的內積應儘可能重構原始的邊權重。值得注意的是,(Luo et al., 2017; Natarajan and Dhillon, 2014)也使用了類似的重建策略來解決鏈路預測問題。此外,如果邊類型r是對稱的,即,{drug-structure-similarity; protein-sequence-similarity; drug-drug-interaction; protein-protein-interaction}.我們使用平局權重(即)來實施此對稱屬性。 此處,相對於所有未知參數,所有邊的平方重構誤差總和最小。由於等式(1), (2)和(3)中的所有數學運算都是可微的或可微分的(例如, 用於ReLU激活功能),因此可以通過執行梯度下降以最小化等式(3)中描述的最終目標函數,以端到端的方式訓練所有參數。
最後,在步驟3之後,可以通過以下方法獲得藥物節點和蛋白質節點之間的預測相互作用置信度得分:
其中和分別代表和的節點類型,而代表其邊類型。
上述操作等效於重建節點和之間的藥物-蛋白質邊權重。通過收集所有藥物的和所有靶標的,我們可以形成藥物特徵矩陣和靶標特徵矩陣。 然後,重建的DTI矩陣可以寫成:
從這個意義上講,我們可以將DTI預測任務視爲矩陣分解或完成問題。 但是,與傳統的矩陣分解方法(Natarajan and Dhillon, 2014; Zheng et al., 2013)不同,NeoDTI通過在步驟1和2中明確定義和的構建過程,結合了更深入的學習模型來構建特徵矩陣和。此外,通過這兩個步驟,NeoDTI將網絡拓撲的先驗知識整合到和中,並指定這兩個矩陣的形式來指導下游優化過程。因此,NeoDTI防止了DTI網絡和其他網絡在步驟3中被任意分解,這可以作爲一個有用的正則化器,從而導致對DTI預測的性能改進(我們的交叉驗證測試也證明了這一點;參見結果部分)。
3 Results
3.1 Datasets
我們採用了之前研究(Luo et al., 2017)精選的數據集,其中包括六個獨立的藥物/蛋白質相關網絡:
- 藥物-蛋白質相互作用和藥物-藥物相互作用網絡[相互作用摘自Drugbank 3.0版 (Knox et al., 2011)]
- 蛋白質-蛋白質相互作用網絡[相互作用是從HPRD數據庫第9版中提取的(Keshava Prasad et al., 2009)]
- 藥物-疾病關聯和蛋白質-疾病關聯網絡[ 從Comparative Toxicogenomics數據庫(Davis et al., 2013))
- 藥物-副作用關聯網絡[從SIDER數據庫版本2(Kuhn et al., 2010)中提取關聯]
這些數據集的基本統計信息可以在補充Table S1中找到。 我們還通過創建兩個額外的網絡來合併藥物化學結構信息和蛋白質序列信息:
- 藥物-結構相似性網絡[即, 通過半徑爲2的Morgan指紋的骰子相似性(Rogers and Hahn, 2010)測量的成對化學結構相似性網絡(由RDKit)
- 蛋白質-序列相似性網絡[它是基於成對的Smith-Waterman得分獲得的(Smith and Waterman, 1981)。
除藥物結構相似性和蛋白質序列相似性網絡均具有非負實值邊權重外,所有網絡均具有二進制邊權重(一個代表已知的相互作用或締合,否則爲零)。 我們將所有這八個網絡結合起來,構建了用於評估NeoDTI預測性能的HN(Fig. 1)。
( a ) NeoDTI使用八個獨立的藥物或靶標相關網絡(有關使用的數據集的更多詳細信息,請參閱第3.1節)。
( b ) NeoDTI首先根據這八個網絡構建一個異質網絡。 不同類型的節點通過不同類型的邊連接。 兩個節點可以通過多個邊緣連接。(例如,表示藥物-藥物相互作用的實線和表示藥物結構相似性的虛線鏈接。)。 另外,NeoDTI將每個節點與功能表示關聯。
( c ) 爲了從鄰居中提取信息,每個節點都採用鄰居信息聚合操作(請參見正文中的定義2)。 每個彩色箭頭表示相對於特定邊類型的特定聚合功能。 然後,每個節點通過將其當前表示形式與聚合信息集成來更新其特徵表示形式(請參見正文中的定義3)。
( d ) 通過強制執行節點特徵以儘可能地重建原始的單個網絡(請參見正文中的定義4),NeoDTI有效地學習了對藥物-靶標相互作用預測有用的拓撲保存節點特徵。
3.2 NeoDTI yields superior performance in predicting new drug–target interactions
DTI預測可被視爲二元分類問題,其中已知的相互作用藥物-靶對被視爲陽性實例,而未知的相互作用對被視爲陰性實例。在我們的測試中考慮了一些具有挑戰性和現實性的方案,以評估NeoDTI的預測性能。 NeoDTI的超參數使用獨立的驗證集確定(如補充材料中所述)。我們首先對所有陽性對和一組隨機抽樣的陰性對進行了10折交叉驗證測試,陰性對的數量是陽性樣品的10倍。這種情況基本上模仿了DTI被稀疏標記的實際情況。 對於每一折,使用隨機選擇的90%正負對子集作爲訓練數據來構建異質網絡,然後訓練NeoDTI的參數(即,在拓撲保留學習過程中,我們僅計算了重建損失)。 DTI網絡需要訓練數據,而其他類型網絡的重建損失則照常計算),其餘10%的正負對將作爲測試集。我們還比較了NeoDTI和六種基線方法的性能:
- DTINet(Luo et al., 2017)
- HNM(Wang et al., 2014)
- MSCMF(Zheng et al., 2013)
- NetLapRLS(Xia et al., 2010)
- DT-Hybrid(Alaimo et al., 2013)
- BLMNII(Mei et al., 2013)
( a ) 10折交叉驗證測試將陽性樣品與陰性樣品之間的比例設置爲1:10
( b ) 10折交叉驗證測試,其中考慮了所有未知的藥物-靶標相互作用對
( c-e )在消除數據冗餘的幾種情況下,正負比率爲1:10的十折交叉驗證:
( c ) 去除了具有相似藥物和蛋白質的DTI
( d ) 刪除了具有相似藥物相互作用的藥物的DTI
( e )去除了具有相似副作用的藥物的DTI
( f )NeoDTI在非唯一的藥物-靶相互作用對上接受了訓練,並在獨特的藥物-靶相互作用對上進行了測試。 有關基線方法的更多詳細信息,請參見補充材料。 所有結果總結了10項試驗,並表示爲平均值
有關如何在這些基準方法中整合異類數據以及如何確定超參數的詳細信息,請參見補充材料第2節。 精確召回面積(AUPR)曲線和接收器工作特徵曲線(AUROC)曲線下的面積用於評估所有預測方法的預測性能。 我們觀察到NeoDTI大大優於其他基準方法,與第二最佳方法(Fig.2 a和Fig. S1 a)相比有顯着提高(AUPR方面爲3.5%,AUROC方面爲3.0%)。
接下來,我們通過在10折交叉驗證程序中包括所有陰性實例(即所有未知的藥物-靶標相互作用對),進一步提高了陽性陰性率(陽性樣品與陰性樣品之間的比例約爲).與第二好的方法相比,我們觀察到了更大的AUPR改善(14.1%)(Fig. 2b)。儘管NeoDTI,DTINet,HNM和NetLapRLS在這種情況下在AUROC方面取得了可比的結果(Fig. S1b),如先前工作中所述(Davis and Goadrich, 2006),但在這裏,AUPR通常提供比AUROC更具信息性的標準 用於高度偏斜的數據集。由於藥物開發通常是一個棘手的問題,因此AUPR的顯着提高確實證明了NeoDTI的預測性能優於其他方法。
由於數據集可能包含"冗餘’'的DTI(即同一蛋白質與多種以上的相似藥物相連,反之亦然),因此在這種情況下,通過簡單的預測就可以輕鬆地提高預測性能(Luo et al., 2017).爲了考慮這個問題,我們遵循與(Luo et al., 2017)中相同的評估策略,進行了以下額外的10倍交叉驗證測試:
- 用相似的藥物(即藥物化學結構相似度> 0.6)或相似的蛋白質(即蛋白序列相似度> 0.4)去除DTI
- 用具有相似藥物相互作用的藥物(即Jaccard相似度> 0.6)去除DTI
- 用具有相似副作用的藥物(即Jaccard相似度> 0.6)去除DTI
- 使用具有相似疾病的藥物或蛋白質(即Jaccard相似度> 0.6)去除DTI
在所有這些測試方案中,我們將正樣本與負樣本之間的比率保持爲1:10.正如預期的那樣,在刪除了多餘的DTI後,我們觀察到了所有預測方法的預測性能下降(Fig. 2 c-e和Fig. S1 c-g)。但是,就AUPR和AUROC而言,NeoDTI仍然始終優於其他預測方法,這也表明NeoDTI在去除數據冗餘後的魯棒性。
在二元預測中,如果數據集包含許多藥物或僅具有一個相互作用夥伴的靶標,則常規交叉驗證可能不是評估預測性能的適當方法。 在這裏,我們稱這類藥物,蛋白質和相互作用爲“獨特的”。 在這種情況下,傳統的訓練方法可能傾向於利用偏重於那些獨特藥物和靶標的藥物來提高性能(van Laarhoven and Marchiori, 2014)。爲了調查此問題,我們通過將非唯一DTI分開來進一步評估了NeoDTI的預測性能。 也就是說,所有方法都在非唯一DTI上進行訓練,然後在唯一DTI上進行評估。 注意在這種情況下,通過將相應的藥物或靶標(或兩者)強制爲唯一來對測試數據中的陰性樣本進行採樣。 這種情況基本上模仿了在沒有很多DTI知識的情況下就可以預測新藥或靶標DTI的情況。 我們發現,就AUPR而言,NeoDTI的性能明顯優於所有基準方法至少13.3%,這表明NeoDTI在預測這些方法的新DTI時,可以比其他最新方法具有更好的泛化能力。 沒有太多DTI知識的藥物或靶標。
3.3 Robustness of NeoDTI
( a )合併藥物結構相似性網絡或蛋白質序列相似性網絡。
( b )納入化合物-蛋白質結合親和力數據。 所有結果總結了10項試驗,並表示爲平均值
3.4 NeoDTI reveals novel DTIs with literature supports
藍色和橙色節點分別代表蛋白質和藥物。虛線和實線分別代表已知和預測的藥物-靶標相互作用(此圖的彩色版本可在Bioinformatics在線獲得).
4 Conclusion
在本文中,我們開發了一個名爲NeoDTI的新框架,以集成來自異質網絡的各種信息以預測新的DTI。NeoDTI通過應用神經網絡將鄰域信息整合到輸入的異質網絡中,從而提取出藥物和靶標的複雜隱藏特徵。通過端到端方式同時優化特徵提取過程和DTI預測模型,NeoDTI可以實現優於其他最新方法的出色預測性能。NeoDTI的有效性和魯棒性已在幾種現實的預測場景中得到了廣泛驗證,並得到許多新穎的預測DTI與文獻中先前研究非常吻合的發現的支持。此外,NeoDTI可以輕鬆整合更多與藥物和靶標相關的信息(例如,化合物與蛋白質的結合親和力數據)。因此,我們相信NeoDTI可以提供一個強大而有用的工具來促進藥物發現和藥物重新定位過程。 將來,我們將通過整合更多異構信息進一步擴展NeoDTI,並通過溼實驗室實驗驗證一些預測結果。