Nat. Mach. Intell. | 少量數據的生成式分子設計

 

今天介紹蘇黎世聯邦理工大學Gisbert Schneider團隊在nature machine intelligence 2020上發表的論文,該論文利用分子語言模型,結合三種優化方法,可以用少量分子作爲數據集訓練出一個分子生成模型。

 

背景

生成式機器學習模型不需要明確的設計規則就可以在化學空間中對分子進行採樣,這類模型學習數據的概率分佈,生成符合這種分佈的新數據(例如,新分子)。近些年來,各種生成式深度學習模型被應用到藥物設計領域,生成具有所需屬性的新分子,其中一些模型採用了語言建模的方法。在這類方法中,神經網絡的目標是根據一個序列中之前出現的所有token(例如,一個單詞或一個字符)的分佈得到下一個token出現在該序列中的概率。一旦訓練完成,這些模型就可以根據訓練集的特徵分佈生成新的序列。這種語言建模方法依賴於基於字符串的分子表示,例如SMILES,它能將分子結構編碼爲字符序列。作者提出的計算模型由化學語言模型(CLM)組成,用於設計化學空間中指定區域內的新分子。爲了進一步擴大CLM在小數據領域的應用範圍,作者結合三種優化方法:(1)數據增強,(2)溫度採樣,(3)遷移學習。

 

方法

2.1 利用語言模型生成新分子

作者基於分子結構的字符串表示SMILES,利用循環神經網絡LSTM生成新分子。該神經網絡由4層組成:第1層BatchNormalization;第二層,LSTM, 1024個單元;第3層,LSTM, 256個單元;第四層,BatchNormalization。每個分子表示爲one-hot向量的序列,如圖1(a)。在one-hot編碼格式中,每種token都有一個固定長度(長度大小爲SMILES字符串的token表大小,在文章中爲71位)的唯一向量表示。在訓練過程中,LSTM學習一個token相對於該分子SMILES字符串中所有前面的token的條件概率分佈,以最小化每一步預測的token類型與真實token類型的分類交叉熵爲目標,即可對模型進行訓練,如圖1(b)。在生成過程中,由begin token開始,反覆利用LSTM生成下一個token的概率分佈並對其進行採樣,直至採樣到end token或者序列長度大於最大序列長度,如圖1(c)。

圖1 (a)分子的SMILES表示和One-hot向量編碼表示,其中G與E分別爲begin token與end token (b)LSTM通過從SMILES字符串中的之前的token預測下一個token來學習數據集的概率分佈 (c)分子生成過程中,LSTM反覆從學習到的概率分佈中採樣token,直到對end token進行採樣,這表示一個新分子已經生成。

2.2 數據增強

訓練數據的數量和質量是訓練一個生成模型的關鍵因素。使用同一實體的多個表示形式(數據增強)已被提出作爲一種策略,在少量數據的情況下訓練並獲得可泛化的模型。文章利用SMILES字符串的非單義性實現數據增強,即利用多個有效的SMILES字符串表示同一個分子圖,這樣的字符串是通過從一個分子中不同的非氫原子爲起始token構建的,如圖2。

圖2 一個10倍數據增強的例子,所有的SMILES字符串都表示相同的分子圖。

2.3 溫度採樣

文章對SoftMax函數施加一個溫度參數T,利用該函數計算每個token的概率分佈並進行採樣,如公式1所示。

其中zi爲LSTM對下一個token屬於第i類的預測得分,T爲溫度參數,qi爲LSTM預測下一個token屬於第i類的概率。

採樣溫度(T>0)控制序列生成過程中每一步採樣token的隨機性。當T→0,LSTM會根據預測的概率分佈,只採樣概率最大的token類型;隨着T值的增加,採樣最大概率的token類型的機會減少,因此模型可以生成更多樣的序列;在T→∞的極端情況下,每個token類型被採樣概率相等,如圖3。

圖3 採樣溫度(T)對SMILES詞彙表中所選token(G, N, C, 1, C, O, E)的條件概率分佈的影響。T= 1表示LSTM在訓練過程中學習到的概率分佈,T < 1銳化概率分佈,而T > 1平滑概率分佈。

2.4 遷移學習

作者研究了遷移學習在少量數據情況下,生成具有新穎性和多樣性的虛擬化合物庫的效率。爲了使生成的分子具有與藥物相關的特徵,作者在兩個化學空間之間進行遷移學習:由ChEMBL 24數據庫中一部分具有生物活性的合成化合物分子(源域),遷移至MEGx數據庫中由植物和微生物合成的天然產物分子 (目標域)。在遷移學習過程中,爲了保留源域數據的特徵,神經網絡第一層的所有參數都保持不變。

 

數據集

ChEMBL 24數據庫中,標註活性值(EC50,IC50,Kd, Ki) < 1µM的化合物作爲具有生物活性的化合物分子(源域)。將分子結構編碼爲canonical SMILES字符串,且只保留SMILES字符串長度不超過140個字符的分子。在去除立體化學信息、鹽分子和重複分子後,從ChEMBL 24中篩選出365,063個具有唯一SMILES字符串表示的分子。用於遷移學習的分子從天然產物分子庫MEGx中檢索,利用子結構過濾方法去除所有存在的糖基,2931個分子被保留。

 

4.實驗結果

4.1 數據增強與溫度採樣的有效性

作者從三個方面比較了數據增強和溫度採樣對模型訓練的影響:(1)有效性,即生成的分子中,其SMILES字符串可以轉化爲分子圖的百分比 (2)唯一性,即生成的非重複SMILES字符串的百分比;(3) 新穎性,即生成的分子的SMILES字符串未出現在訓練集的百分比。高有效性表明該模型已經掌握了生成具有化學意義的SMILES字符串的必要特徵,高唯一性表明生成的SMILES字符串是非冗餘的,高新穎性表明該模型適合從無到有生成新分子。作者測試了四種數據增強(×1、×3、×10、×20),以及四種溫度採樣(T = 0.2、0.7、1.0、1.2)對模型學習概率分佈的影響,如表1。

表1 數據增強和溫度採樣對生成分子的有效性,唯一性和新穎性的影響

可見,與非增強情況相比,除了X1數據增強,其他數據增強對模型訓練都是有益的。作者認爲在每個SMILES字符串只有一個額外的表示時,token的潛在統計模式很難學習。此外,與10倍的數據增強,20倍的數據增強並沒有進一步改善結果。對於溫度採樣,最高的有效性,唯一性和新穎性在T=0.7的溫度下達到。因此,x10數據增強和T=0.7溫度採樣作爲最佳優化參數,被用於後續遷移學習的實驗中。

4.2 利用遷移學習生成特定分子

爲測試少量數據情況下遷移學習的效果,作者從天然產物分子庫MEGx中選擇了5個結構相似的分子作爲遷移學習的數據集,如圖4(a)。

首先,作者計算了Frechet ChemNet距離(FCD)——一種基於化學結構和生物活性來評估兩個分子種羣之間相似性的距離度量——用於評價遷移學習過程中化學空間的相似程度。FCD值爲0表示兩個化學空間是相同的,而值越高則表示差異越大。FCD曲線隨着訓練時間不斷變化,如圖4(b),在轉移學習的最初階段,生成的分子到目標域(MEGx)和源域(ChEMBL 24)的距離先減小後增大。在初始訓練週期內,生成分子空間與源域空間之間距離的下降可以用遷移學習的初始效應來解釋,即此時該模型關注的是源域和目標域之間的共同特徵。此後,生成分子空間與目標域空間之間距離的增加與直覺相反,對此的一種可能解釋是,用於遷移學習的5個分子的空間與整個目標域空間相比,其大小和多樣性有限。

其次,作者選用碳原子的sp3雜化(Fsp3)比例來說明在遷移學習過程中生成分子的物理化學性質的變化。Fsp3已被證明與分子用於藥物的機率有關,而在合成化合物和天然產物之間又有所不同。在遷移學習過程中,生成分子的Fsp3分佈不斷趨近用於遷移學習的5個分子的Fsp3分佈,如圖4(c)。這證實了利用少量結構相似的化合物進行遷移學習,也可以使模型捕獲相關的物理化學性質。爲了可視化生成的分子在化學空間中的相對位置,作者利用UMAP方法將數據特徵進行降維,如圖4(d)。從預訓練的LSTM中採樣的分子(淡藍色)接近訓練集ChEMBL 24(深藍色),而在遷移學習之後,分子向用於遷移學習的5個MEGx分子的位置移動(epoch 40),這證實了遷移學習在化學空間中從源域引導到遷移學習數據集的有效性。

圖4 由5個結構相似分子進行遷移學習 (a)遷移學習數據集由天然產物分子庫MEGx的5個結構相似的分子組成 (b)遷移學習過程中生成分子到ChEMBL 24(實線)和MEGx(虛線)的FCD  (c)遷移學習過程中,Fsp3分佈的變化 (d) UMAP圖

最後,通過分析Bemis-Murcko分子骨架,作者進一步評估了化學空間的覆蓋範圍和生成分子的多樣性。作者在遷移學習之前(使用預先訓練的LSTM)和遷移學習期間,檢查了採樣分子中最常見的5種骨架,如圖(5)。作者利用香農熵與被研究的骨架數量的比例關係(SSE)作爲骨架多樣性的一種度量,如公式(2)所示。

其中,公式的分子是香農熵,n是所考慮的唯一骨架的數量,ci是包含第i種骨架的分子數量,P是包含所考慮的n種骨架的分子數量,分母的取值範圍爲[0,1]。SSE量化了一組給定骨架的結構多樣性: SSE=1表示最大多樣性,而SSE=0表示只存在一種分子骨架。在遷移學習過程中,生成分子中包含最常見5種骨架的分子數量增加,而多樣性不斷下降,單例(在一個種羣中只出現一次的骨架)的比例也降低了,如表2所示。這一結果表明,用5個結構相似的分子作爲遷移學習的訓練集會導致大部分生成分子也包含與其類似的分子骨架。

圖5 遷移學習過程中,生成分子所包含的最常見的5種分子骨架。百分比表示包含相應分子骨架的分子的比例。SSE定量衡量5種最常見骨架的多樣性。

在生成分子的新穎性方面,遷移學習後生成分子的新穎性下降了60%,而新支架的數量僅略有下降。作者用Enamine化合物數據集進一步評價生成分子的新穎性,模型生成的分子有99%都是新的,且在遷移學習過程中,新骨架的比例從75%增加到95%。總而言之,無論從FCD的角度還是從骨架多樣性的角度,分子設計過程得益於遷移學習。

表2 生產分子的骨架信息

4.3 利用遷移學習拓展化學空間

在證實利用遷移學習可以用少量數據訓練模型並生成特定屬性的分子後,作者測試了利用遷移學習拓展生成分子的化學空間源域目標域的能力。實驗採用天然產物分子庫MEGx中5個結構各不相似的分子作爲遷移學習的數據集,如圖6(a)。雖然生成分子空間與目標域空間(MEGx)的距離隨着epoch的數量增加而不斷減小,但與源域空間(ChEMBL 24)的距離在開始時保持穩定,在第五個epoch之後開始增加,如圖6(b)。表明,5個不相似分子的結構多樣性生成分子的結構特徵覆蓋一部分目標域空間,如圖6(c)。相比之下,使用5個相似分子的遷移學習,生成分子主要具有這5個分子的結構特徵。UMAP圖表明許多生成分子位於天然產物附近的區域,如圖6(d)。總而言之,在epoch 40之後的生成分子分佈證實了遷移學習擴展了生成分子化學空間的覆蓋範圍。

圖6 由5個結構不相似分子進行遷移學習 (a)遷移學習數據集由天然產物分子庫MEGx的5個不結構相似的分子組成 (b)遷移學習過程中生成分子到ChEMBL 24(實線)和MEGx(虛線)的FCD  (c)遷移學習過程中,Fsp3分佈的變化 (d) UMAP圖

與五種結構類似分子的分析結果相比,該實驗中生成分子的五種最常見的分子骨架僅代表所有生成分子的一小部分,且其多樣性(SSE)在遷移學習過程中不斷下降。新骨架和單例的比例較高,且在遷移學習過程中略有增加,如圖7。與源域和目標域相比,大部分生成分子含有新型骨架,如表2。因此,作者得出結論,即具有結構多樣化的遷移學習數據集允許生成結構多樣化的分子,這些分子包括範圍廣泛的骨架,並具有源域和目標域的特性。

圖7 遷移學習過程中,生成分子所包含的最常見的5種分子骨架。百分比表示包含相應分子骨架的分子的比例。SSE定量衡量5種最常見骨架的多樣性。

 

5總結

文章的結果表明,CLM與數據增強、遷移學習和溫度採樣相結合,能夠在少量數據情況下發現新的分子實體。基於SMILES的模型被證明能夠在合成化合物和天然產物的數據集上生成具有特定性質的新分子。

參考資料

Michael Moret , Lukas Friedrich, Francesca Grisoni , Daniel Merk and Gisbert Schneider. Generative molecular design in low data regimes. Nature Machine Intelligence | VOL 2 | March 2020 | 171–180 | https://doi.org/10.1038/s42256-020-0160-y.

 

Data and Code availability

https://github.com/ETHmodlab/virtual_libraries

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章