Nat. Mach. Intell. | 利用條件循環神經網絡生成特定性質分子

作者 | 陸豐慶


今天給大家介紹瑞士知名藥企阿斯利康和伯爾尼大學的 Esben Jannik Bjerrum團隊在Nature Machine Intelligence上的一篇論文。該研究提出基於分子SMILES表示的條件循環神經網絡,輸入目標性質,模型可直接生成具有對應性質的分子。

1

背景

機器學習對生物和化學領域有着深遠影響,其可被用於生物活性預測,分子性質預測,醫療診斷等。然而,反向分子設計,即生成具有特定結構和物理化學性質的分子,對於機器學習仍是一項挑戰。

生成式機器學習模型不需要明確的設計規則就可以在目標空間中進行採樣,這類模型學習數據的分佈,並生成符合這種分佈的新數據。近些年來,生成式深度學習模型在新葯設計領域迅速發展,被用於生成具有特定性質的分子。由於分子線性輸入規範(SMILES)可將分子以字符串形式表達,有一部分自迴歸式生成模型利用循環神經網絡對SMILES表達式進行序列建模和預訓練,以生成滿足基本物化性質的分子,隨後結合遷移學習或強化學習技術將生成分子引導至具有目標屬性的化學空間。此外,有研究人員將目標分子的化學性質和圖結構進行編碼,作爲條件變分自編碼器和條件對抗生成網絡的輸入條件,生成對應分子。Esben Jannik Bjerrum團隊基於分子的SMILES表達和循環神經網絡,提出了條件式生成模型。輸入目標性質,模型將直接生成具有對應性質的分子。實驗表明輸入條件可操縱循環神經網絡生成目標化學空間中的分子,例如對特定蛋白質結構有生物活性的分子。

2

方法

2.1 數據集

作者使用兩個開源分子數據庫:ChEMBL和ExCAPE-DB。其中ChEMBL被用於訓練條件循環神經網絡,而ExCAPE-DB中靶向多巴胺受體(DRD2)的分子被用於訓練基於支持向量機的QSAR分類模型進而檢驗生成模型能否通過輸入條件來生成對DRD2有生物活性的分子。

2.2 SMILES數據增強和向量化

使用同一實體的多個表示形式(數據增強)已被提出作爲一種策略,以在少量數據的情況下訓練並獲得可泛化的模型。作者利用SMILES字符串的非單義性實現數據增強,即利用多個有效的SMILES字符串表示同一個分子,該方法通過從一個分子中不同的非氫原子爲起始字符構建不同的SMILES字符串。在每個SMILES字符串的第一個字符前和最後一個字符後分別插入起始符^和終止符$後,將每個SMILES字符串進行one-hot編碼。在one-hot編碼格式中,每種字符都有一個固定長度(長度大小爲SMILES字符串的token表大小)的唯一向量表示,每個SMILES字符串將被轉化爲一個二維向量,一個維度對應着token表長度,另一個維度對應着該SMILES字符串的長度。

2.3 條件循環神經網絡

作者構建了基於不同分子描述符的條件循環神經網絡:

(1)基於物理化學分子描述符——PhysChem Based(PCB)模型,如圖1(A)所示。該模型將脂水分配係數 log P、拓撲極性表面積 TPSA、分子重量 MW、氫鍵供體數 HBD、氫鍵受體數 HBA、類藥性評分 QED 和 DRD2 QSAR分類器的評分爲輸入條件。

(2)基於分子指紋——FingerPrint Based(FPB)模型,如圖1(B)所示。該模型以分子的2048位Morgan FingerPrint編碼爲輸入條件。

圖1 

基於不同條件的條件循環神經網絡 (A)基於物理化學性質的模型(PCB)接受由RDKIT Python庫計算的六個分子描述符與由QSAR預測的具有生物活性的概率。(B)基於指紋的模型(FPB)接受由RDKIT計算的2048bit Morgan指紋向量。在訓練過程中,二者都使用Teacher’s Forcing方法訓練,且使用數據增強後的ChEMBL SMILES字符串爲訓練集。(C)在推理過程,輸入條件並以起始符^爲起點,反覆生成字符直至終止符$被採樣。

輸入條件向量後,首先使用具有六層全連接層,每層256個神經元,以ReLU爲激活函數的神經網絡將條件向量轉換爲循環神經網絡中每層網絡的hidden state或cell state。隨後由三層各自含有256個LSTM神經元組成的單向循環神經網絡進行訓練和推理。最後一層循環神經網絡的輸出向量經過一個含有35個神經元的單層神經網絡,經過SoftMax激活函數後,得到下一個字符的概率分佈。訓練時,兩種cRNN模型使用Teacher’s Forcing方法進行訓練, 即從訓練集中選擇分子,計算其描述符或指紋作爲輸入條件;在cRNN訓練過程中,將該分子SMILES字符串順序輸入,以最小化下一個字符的預測概率分佈和真實值的交叉熵爲目標。生成分子時,以目標描述符或指紋作爲輸入條件;輸入起始符^,計算下一個字符的概率分佈並採樣,將被採樣的字符作爲下一個輸入字符;如此反覆,直至採樣到終止符$。

3

實驗

3.1 基準模型

實驗中,作者旨在生成對DRD2具有生物活性的分子,採用兩個基準模型進行對比:(1)Prior Model:在ChEMBL上訓練的循環神經網絡(2)TL Model:採用遷移學習策略,在ChEMBL上進行預訓練,隨後在對DRD2具有生物活性的分子數據集上訓練的循環神經網絡。兩個基準模型與條件循環神經網絡具有相同的網絡結構,且將網絡的hidden state或cell state置零。

3.2 數據集的負對數似然分佈

圖2  由Prior model,TL Model,FPB Model和PCB Model採樣出每個數據集中所有分子SMILES的負對數似然分佈。

作者通過計算負對數似然(NLL)來估計模型生成數據集中某一分子的概率,該值越小說明生成該分子的概率越大。圖2表明PFB和PCB模型在四個數據集上分別有最低和第二低的負對數似然分佈,這說明在二者與基準模型相比,有更大可能生成數據集中的分子。同時也說明,PFB模型所用的2048-bit Morgan Finger相比PCB模型的7-bit 物理化學性質描述符,輸入條件含有更多分子信息,這促使cRNN有更大可能性生成對應結構的分子。

3.3 生成DRD2活性分子

圖3 從DRD2測試集中隨機挑選兩個分子作爲conditional seed(中心),以其結構指紋爲條件,利用FPB模型生成分子(虛線內);以其物理化學描述符爲條件,利用PCB模型生成分子(虛線外)。

圖4 (A)由FPB和PCB模型生成的分子與conditional seed分子的骨架相似性分佈(B)由FPB和PCB模型生成的分子對DRD2的生物活性分佈。

圖3展示了從DRD2測試集中隨機挑選活性分子作爲conditional seed,利用FPB和PCB模型生成的分子。由結果可見,因爲Morgan Finger包含了大量的分子結構信息,利用FPB生成的分子與conditional seed在結構上極其相似,大多擁有相同的分子骨架。另一方面,PCB模型的輸入條件僅僅爲物理化學性質,生成的分子在結構上更具多樣性。圖4說明PCB模型與FPB模型相比,生成的分子與seed具有較小的骨架相似性;然而,兩個模型生成的分子對DRD2的生物活性有相似的分佈。

3.4 PCB模型生成特定性質分子

圖5 10個conditional seed分子的物化性質(紅線)和生成分子的物化性質(藍點)

PCB模型的一大優勢是可以直接操控生成分子的物理化學性質。圖5展示了從DRD2測試集中隨機選取10個分子作爲conditional seed,分別生成256個分子SMILES的物理化學性質分佈。可見,除了QED,其他生成分子的屬性與目標屬性有較小方差。

圖6 變化某一性質同時保持其他性質不變。生成分子的性質(藍點)與目標性質(紅線)大體一致。

圖6表明PCB模型可以單獨改變生成分子的某一性質,而保持其他性質不變。總體上,除了QED,生成分子的性質與目標性質有較小差距。然而,這是可預期的,因爲QED是其他五個性質的加權和。若單獨改變QED大小,可能無法滿足其他目標性質,如圖6中箭頭所示;若單獨改變某一性質,而保持QED不變,則可能導致其他性質也發生改變。

4

總結

作者提出了以分子描述符爲輸入條件的條件循環神經網絡,實驗表明該模型與在ChEMBL上訓練的循環神經網絡和在DRD2上遷移學習的循環神經網絡相比,更有可能生成對DRD2有生物活性的分子。由於分子指紋包含分子的結構信息,FPB模型生成的分子與conditional seed有極高的結構相似性。相反,PCB模型可直接生成更多樣化的具有目標屬性的分子。

參考資料

Kotsias, P., Arús-Pous, J., Chen, H. et al. Direct steering of de novo molecular generation with descriptor conditional recurrent neural networks. Nat Mach Intell 2, 254–265 (2020). https://doi.org/10.1038/s42256-020-0174-5

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章