Drug Discovery Today| 頻繁命中化合物:高通量篩選中需警惕的假陽性結果

 


今天給大家介紹的是2020年1月在Drug Discovery Today上發表的綜述“Frequent hitters: nuisance artifacts in high-throughput screening”。高通量篩選是藥物研發的一個重要手段,然而研究中發現一些化合物在不同類型靶點篩選中均表現出陽性結果,這類化合物稱爲“頻繁命中化合物”(Frequent hitters)。本綜述針對頻繁命中化合物的主要分類:膠體聚集化合物(Aggregators)、光學干擾物(Spectroscopic interference compounds)、化學易反應化合物(Chemical reactive compounds)和混亂成鍵化合物(Promiscuous compounds)進行簡單介紹,同時對現常用的模型或規則和其未來發展方向進行討論分析。

 

簡介

高通量篩選是藥物研發的一個重要手段,然而研究中發現一些化合物在不同類型靶點篩選中均表現出陽性結果,這類化合物稱爲“頻繁命中化合物”(Frequent hitters)。根據篩選結果的有效性,頻繁命中化合物可以大致分爲兩類,一是能與許多不同類型靶點成鍵結合的混亂化合物(Promiscuous compound);二是通過干擾實驗條件而在多個實驗中呈現出陽性結果的假陽性化合物(False positive)。雖然混亂化合物可能成爲多藥理作用的研究起點,但考慮其低選擇性容易與其他蛋白髮生反應從而導致潛在的毒副作用,因此這類化合物通常不作爲新藥物研發的首選;而假陽性化合物產生機制較爲複雜,根據現有的研究主要可以分爲:膠體聚集化合物、自熒光化合物、熒光酶抑制劑和化學易反應化合物(圖1)。

圖1頻繁命中化合物關係圖

 

爲了避免頻繁命中化合物對實驗干擾,許多實驗方法,例如採用qHTS、ADP-Glo等更先進高通量篩選方法,或者採用交互實驗驗證等用於增強篩選結果可行度。此外,隨着更多晶體結構發現分享和生物實驗數據庫整理,頻繁命中化合物的探索變得更加可行。最爲人熟知且廣泛使用的就是PAINS(Pan-assay interference compounds)篩選規則。這是Baell等人在2010年基於六個不同靶點高通量篩選實驗結果,並將其中頻繁出現(≥4次)的化合物和相關結構總結爲包含480個子結構的篩選規則。但這類規則主要針對的是化學易反應化合物,且PAINS規則本身也有很大侷限性,因此,頻繁命中化合物相關篩選預測工具的開發仍然是現今研究熱點。在2017年,一篇由九名美國化學學會雜誌主編聯名發表的文章“The Ecstasy and Agony of Assay Interference Compounds”中強調了實驗干擾引起的假陽性化合物的危害,告誡研究人員對篩選得出的陽性結果真實性需要反覆確認,對潛在的假陽性結果需要提高警惕。爲了更深入的瞭解頻繁命中化合物和相關機制,本文對現有的膠體聚集化合物、光學干擾物、化學易反應化合物和混亂成鍵化合物相關篩選規則和模型進行了一個回顧分析,同時對未來的發展方向進行了討論。

 

膠體聚集化合物

膠體聚集化合物是頻繁命中化合物的重要組成。Ferreira et al.在對假陽性背後機制的研究中發現,88%的假陽性結果是由於膠體聚集化合物引起的。而在另一個針對β-lactamase實驗中發現,膠體聚集化合物引起的假陽性結果高達95%,而試驗中的真陽性結果只佔整體結果的5%。此外,膠體聚集化合物不僅高頻率出現在有機化合物篩選結果中,其在天然產物中也十分常見。Duan等人發現有14個研究文獻達上百篇的“潛力天然產物分子”都是膠體聚集化合物,其中8個化合物臨界聚集濃度甚至低於10μM,其中包括研究數目超過6,000項、研究經費高達百萬的天然產物薑黃素。膠體聚集化合物是由小分子在溶液中聚集形成的半徑60—300 nm的聚集體,其能夠與蛋白表面非特異性結合,誘導蛋白質發生部分摺疊,從而使得蛋白質失活(圖2A)。常用的實驗檢測手段是在溶液中加入0.01-0.1% Triton X-100 或其他非離子型表面活性劑,但部分化合物在加入後仍能發生膠體聚集現象。關於現有的計算機篩選模型,Irwin等人收集12,600個膠體聚集化合物並建立一個基於聚集化合物結構相似性和脂水分配係數來預測膠體聚集化合物的規則Aggregator Advisor,但是由於建模方法較簡單,這些規則預測結果的準確性受到限制。針對Aggregator Advisor的不足,作者所在課題組採用RandomForest和XGBoost算法結合多種描述符建立一個高效準確的預測模型,並開發成爲網頁預測工具ChemAGG,並總結一套膠體聚集化合物篩選規則:logD 大於6,芳香性三級碳大於14,羥基數目大於3,與至少三個原子相連的硫原子數目大於2的化合物在溶液中聚集的可能性更高。

圖2頻繁命中化合物中(A)膠體聚集化合物、(B)熒光酶抑制劑、(C)自熒光化合物和(D)化學易反應化合物的主要干擾機制

 

 

熒光酶抑制劑

熒光酶檢測技術,主要是利用生物熒光酶探測實驗中ATP濃度從而判斷酶的活性高低,是高通量篩選中的重要檢測手段。2019年在PubChem登記檢測方法的約4400個高通量篩選實驗中,14%的實驗是基於生物熒光酶進行檢測,49%的實驗是基於熒光基團進行檢測。然而,熒光酶抑制劑出現導致生物熒光酶探測中假陽性結果頻頻發生,更重要的是,這些干擾化合物在數據庫中普遍存在。熒光酶檢測干擾主要分爲兩類:特異性抑制(即對熒光酶的特異性抑制,圖2B)和非特異性干擾(使酶失活或通過光吸收衰減光信號)。常見的熒光酶抑制劑包括苯並噻唑類化合物,例如2-芳基取代苯並-[d]噻唑、2-芳基取代苯並-[d]-咪唑和2-芳基取代苯並-[d]-惡唑等。此外,喹諾酮類化合物也是常見的熒光酶抑制劑。研究發現,對於苯並噻唑和喹諾酮類抑制劑而言,呈現出平面和平坦結構特點的化合物比呈現出複雜空間、多支鏈特點的化合物抑制作用更強(圖3A)。值得注意的是,如果不提前進行有效鑑別,熒光酶類抑制劑作爲假陽性化合物會成爲後續藥物研究的潛在威脅。例如,白藜蘆醇 (resveratrol)是一類在癌症、糖尿病和阿爾茨海默病患者中顯示出有潛在治療價值的化合物。然而在2006年,白藜蘆醇被確定爲是一種FLuc抑制劑(Ki = 2μM)。在這此前,許多以FLuc熒光酶作爲探測手段,濃度爲微摩爾級別以上的白藜蘆醇活性結果的真實性均受到質疑。爲了防止熒光抑制劑產生的假陽性結果,常用的實驗檢測手段是雙熒光酶檢測方法(例如FLuc和RLuc組合檢測)、交互實驗或選擇其他不同檢測方法。關於現有的計算機篩選模型,Li等人收集390個熒光酶抑制劑結合SVM方法構建一個針對潛在生物熒光酶抑制劑的篩選模型,但是由於原始數據量的限制,該模型實際應用非常受限。Chen等人基於1551個熒光酶抑制劑建立MIEC-GBDT預測模型,實現90%的預測準確率。Ghosh等人採用不同的機器學習方法建模預測熒光素酶抑制劑,其中神經網絡方法建成模型表現最好,相關預測模型Luciferase Advisor在OCHEM平臺開放使用。

圖3常見頻繁命中化合物或子結構(A)熒光酶抑制劑、(B)自熒光化合物和(C)化學易反應化合物

 

 

自熒光化合物

通過熒光基團檢測相關生物分子濃度是高通量篩選中另一重要檢測手段。根據激發波長和發射波長範圍,可以將常用的熒光基團分爲四類:(1)紫外和低波長可視區:4-methyl umbelliferone (4-MU) and Alexa Fluor 350 (ex = 340 nm,em = 450 nm);(2) 綠光可視區:fluorescein and Alexa Fluor 488 (ex = 480 nm,em = 540 nm); (3) 紅光可視區:Rhodamine, Resorufin, and Texas Red (ex = 540 nm, em = 600 nm); (4) 遠紅端可視區:Alexa Fluor 647 (ex = 570 nm, em = 671 nm)。然而,一些化合物由於自熒光性在熒光檢驗中造成假陽性結果(圖2C)。Simeonov等人在針對一個70,000個分子數據庫的篩選中發現,有3,500個化合物表現出比十個微摩爾的熒光劑4-methylumbelliferone (4-MU)更高的熒光強度。雖然僅佔數據庫的5%,但這類化合物在後續篩選中卻佔比近50%的陽性結果。常見的自熒光化合物例如喹喔啉4,9-二氧化物,蒽惡唑-6-酮,二氫蒽-9,10二酮,嘧啶三嗪二酮等化合物(圖3B)。現較常用的實驗手段是採用遠紅端熒光劑或增加熒光強度;對於自熒光化合物篩選模型,Su等人收集五種不同吸收和發射波長的熒光基團的自熒光化合物並構建決策樹模型,建立了14條篩選規則。

 

化學易反應化合物

化學易反應化合物指要是指通過對靶點蛋白殘基或對實驗中親核試劑進行氧化還原反應而呈現出陽性結果的化合物。這類化合物主要指帶一些含有例如硫酯類、磺酰基、氮雜環丙烷類等強親電基團的易反應化合物(圖3C)和能通過氧化循環產生過氧化氫的化合物。前一類化合物易與實驗環境中試劑發生反應,後一類化合物則能通過產生過氧化氫將靶點蛋白中的半胱氨酸殘基氧化從而使得蛋白質失活(圖2D)。例如,異喹啉-1,3,4-三酮衍生物由於能抑制半胱氨酸蛋白酶-3活性,被認爲是治療與細胞凋亡相關疾病的潛力藥物,然而後續研究發現,異喹啉-1,3,4-三酮衍生物抑制機制主要是通過生成過氧化氫,從而將半胱氨酸中的巰基氧化成磺酸基,進一步導致蛋白質失活。這類易反應化合物不作爲首要藥物研發的原因,一方面是因爲其不穩定性和易反應性使得其在體內吸收代謝過程容易失控,另一方面是因爲其特異性低使得化合物在實際應用時往往伴隨着不期望的副反應甚至導致嚴重的毒性反應。

爲了避免化學易反應化合物引起的假陽性結果,實驗中一般會加入DDT試劑或者進行HRP-PR實驗檢驗。關於計算機預測模型,1997年,Rishton等人總結出一套含有19個易反應子結構用於篩選潛在的假陽性結果。2004年,Hajduk等人通過一種核磁共振技術檢測硫醇反應化合物,並將這些易反應化合物中的子結構總結成一套ALARM NMR篩選規則。2010年, Baell等人基於六個不同靶點高通量篩選實驗結果,總結一套包含480個子結構的篩選規則PAINS。在2012年,Lilly公司基於多年藥物研發數據,結合藥物化學家研究經驗,總結出共275個子結構篩選規則,其中有116個子結構是針對化學易反應化合物(酰化劑(51種規則)、醛酮(29種規則)、烷基化劑(29種規則)和氧化還原循環劑(7種規則))。

 

混亂化合物

混亂化合物指能與許多不同靶點特異性成鍵的化合物,由於其在物化性質和結構方面都展示出高度變化性,實際數據完整度較低,其預測的難度較高。Yang等人發現一些FH具有相同或相似的骨架,例如2-氨基噻唑骨架化合物發現在測試的14個實驗中均表現爲陽性結果,之後其基於PubChem數據庫中大量實驗數據開發一種通過分子骨架預測化合物爲FH可能性的方法Badapple,並根據預測分數將化合物分爲非混亂化合物、低混亂化合物和高混亂化合物。除了骨架外,一些化合物在子結構的改變也可能會導致化合物混亂度發生改變,稱爲“混亂度懸崖”(Promiscuity Cliff)。Jurgen等人在對不同來源的分子以及激酶抑制劑進行關於子結構-混亂度的分子對分析,相關數據在ZENODO可以獲得。Stork等人針對混亂化合物進行分析建模,並建立了相關預測網站HitDexter2.0。有趣的是,另一項研究關注在高通量篩選中從未擊中的化合物,稱爲DCM(dark chemical matter)。這類化合物與混亂化合物相反,在超過100次不同靶點的篩選中都未表現出活性。鑑於這類化合物的高度選擇性,DCM常被用作頻繁命中化合物建模中的負集或外部測試集。

另一方面,混亂化合物並不是一無是處。多藥理機制(Polypharmacology)是老藥新用以及藥物拯救的基礎。實際上,藥物選擇性的定義隨着時間發生着變化,研究表明現有的藥物分子普遍含有2~6個靶點;其次,一些疾病的治療,例如癌症或神經相關疾病,需要多靶點化合物作用。化合物多靶點預測網站,例如Similarity Ensemble Approach (SEA), SwissTargetPrediction,HitPick,TargetNet,PPB2等也逐漸被廣泛應用。類似網站對於正確瞭解混亂化合物也有着重要作用。

 

討論及結論

在這篇綜述,作者主要討論了頻繁命中化合物的機制和其現有的發展,總結相關常用實驗檢測方法(表1)和計算機篩選工具(表2)。現有的計算機篩選工具仍有許多可以改進的方面:(1) 頻繁命中化合物篩選工具應該被用作標記特徵,而不是嚴格的篩選過濾器。其中一個原因是主要因爲現有篩選工具初始數據限制。因此對應用域進行評估或用外部數據集檢驗過的模型可信度更高;(2)對於不同機制的頻繁命中化合物,應該採取不同的策略對待,也是因爲其意義不同,機制分明清晰的頻繁命中化合物模型具有更高的應用價值。更多頻繁命中化合物機制,例如細胞膜干擾物(例如羥苯基腙)和金屬螯合物(例如紫草鹼)等待進一步探索。爲推動頻繁命中化合物篩選更進一步發展,作者將現有的頻繁命中化合物相關數據和數據源附在文章附加材料,希望通過合理應用頻繁命中化合物篩選模型,藥物化學家和相關研究者能夠避免假陽性結果,真正實現有效且低成本的藥物研發。

 

Manuscript availability

https://www.sciencedirect.com/science/article/pii/S1359644620300404

參考資料

Ziyi Yang, Junhong He et al. Frequent hitters: nuisance artifacts in high-throughput screening. Drug Discovery Today 2020.

https://doi.org/10.1016/j.drudis.2020.01.014

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章