CellPress | 醫學上人工智能的缺失

整個醫療保健鏈中的利益相關者正在尋求將人工智能(AI)納入其決策過程。從早期藥物開發到臨牀決策支持系統,已經看到了AI如何提高效率和降低成本的示例。本文討論了應優先考慮的一些關鍵因素,以使AI在整個醫療保健價值鏈中成功集成。特別是,研究者認爲對模型的可解釋性的關注對於深入瞭解潛在的生物學機制並指導進一步的研究至關重要。此外,討論了在任何AI框架中集成各種類型的數據以限制偏差,提高準確性併爲醫學的跨學科性質建模的重要性。

1.從實驗室到臨牀的AI應用

近年來,人工智能技術在醫療保健研究中的使用急劇增加。產生和存儲前所未有的大型數據集以及擴大計算規模的能力使AI蓬勃發展。大數據革命最大程度地增強了AI的子領域機器學習(ML),其中學習是通過暴露於預先存在的大型數據集來驅動的。這些發展共同爲AI創造了新穎而令人興奮的機會,可以在多個階段積極影響醫學領域。

圖1人工智能在醫療領域中的應用。

 

AI最直接轉變的醫療保健子領域是在皮膚病學、放射學或病理學等領域中基於圖像的診斷方法。在一項開創性研究中,Esteva等人利用Google Inception卷積神經網絡(CNN)架構從皮膚病變圖像中對非黑色素瘤和黑色素瘤皮膚癌進行分類,並獲得了與專家同等的結果。在最近的一項研究中,Campanella等人展示了AI如何通過使用針頭活檢病理切片的數字化圖像作爲模型中的特徵來準確地區分前列腺癌。

這些方法都使用了一種稱爲深度學習(DL)的ML類型,它是深度超過三層的神經網絡,是計算機視覺領域的重要組成部分,旨在廣泛模擬人腦中神經元的活動。傳統上訓練神經網絡時,特徵(在模型中輸入的不同數據)和每個特徵的重要性之間的關係是未知的。因此,每層中每個神經元的權重是隨機分配的。但是,這可能會導致訓練時間變慢,因爲一個人的模型必須從頭開始“學習”這些關係。預訓練神經網絡,使用先前訓練過的模型的權重初始化網絡的能力允許更健壯的模型,這些模型可以更快地進行訓練,從而使其非常適合複雜的多維問題。儘管DL經常因缺乏可解釋性和計算成本而受到批評,但這些方法顯示出的準確性與受過訓練的臨牀醫生相當,或在某些情況下優於訓練有素的臨牀醫生。

AI驅動的診斷背後的主要驅動力之一是可用於訓練算法的大量圖像。電子健康記錄(EHR)是大數據的另一個來源,爲基於AI的分析提供了巨大的潛力。EHR提供了一個獨特的機會來利用廣泛的時間序列患者數據,其中包括有關診斷、治療、復發和合併症的信息。毫不奇怪,人工智能研究人員已經利用這些數據使用線性模型和神經網絡創建了預測模型,用於各種患者護理問題,例如患者再次入院或發生特定醫療事件的風險。

除了DL,線性模型對於在醫學中採用AI也是必不可少的。線性模型有很多不同的種類。但是,它們都依賴於這樣的事實,即特徵與所預測的變量之間存在潛在的線性關係。這個基本原理無疑限制了線性模型在複雜情況下的適用性。但是,它使研究人員可以清楚地瞭解每個功能對預測的影響,從而使其難以解釋。因此,這可能很有吸引力,尤其是在生物學中,需要對底層機制有清楚的瞭解。例如,在臨牀試驗空間內,Geeleher等人訓練了線性模型來利用患者的遺傳狀況預測藥物療效。近年來,線性模型已成爲理解基因組學對藥物功效的影響的標準方法。

還建議使用AI爲患者創建工具,而不是專門爲臨牀醫生和/或研究人員創建工具。具體來說,已經引入了聊天機器人,該機器人利用稱爲自然語言處理(NLP)的AI的專門領域,以幫助一般醫學素養和診斷。Comendador等。創建了Pharmabot,這是一款專門爲幫助父母或患者解釋通用兒科藥物的機器人。其他示例包括Ni等人的工作,其中他們創建了聊天機器人Mandy,該聊天機器人將便利與初級保健患者進行訪談以自動化患者攝入並開始診斷過程(圖1)。總體而言,面向患者的應用程序是合併AI的一個有趣領域,它有可能完全改變當前的患者護理模式。

受AI影響的醫學的另一個主要領域是早期/臨牀前藥物開發,該領域受高失敗率困擾,其中超過98%的所有臨牀前資產在投放市場之前就失敗了。隨着高通量篩選和基因組技術的出現,研究人員變得更容易獲得可以輸入到AI框架中的大規模,受控實驗數據集。最近,我們的小組和其他研究人員表明AI可以利用龐大而多樣的數據集來解決藥物開發的多個階段,例如識別新的靶標或藥物候選物,將現有化合物定位爲新的適應症或根據預測的不良事件使候選化合物脫險(圖1)。

對AI驅動的藥物發現的興趣最近導致了許多財團的努力。例如,逆向工程評估和方法對話(DREAM)項目組織了各種挑戰,重點是臨牀前研究問題,向社區開放以建立和測試計算模型。2014年,DREAM項目與美國國家癌症研究所(NCI)合作開放源代碼,以利用基因組和蛋白質組學數據預測乳腺癌中的藥物敏感性。最近,阿斯利康(AstraZeneca)與DREAM合作,利用高通量功效數據圍繞藥物組合協同效應的預測提出了新的挑戰,其中頂級方法預測了大多數協同藥物組合,其錯誤率與生物學重複相同。

總而言之,我們已經看到了如何使用廣泛的AI算法(線性模型,神經網絡,NLP等)來利用多種數據類型來解決醫學多個方面的問題。

 

2.何時以及如何使模型可解釋

何時承擔可解釋性的重擔

關於AI(尤其是DL)與醫學的集成的最大批評之一是認爲AI是“黑匣子”。這是指這些算法如何進行預測時缺乏明確性和透明度,這歸因於DL要求大量變量(即每個神經元的權重)和複雜的基礎結構(體系結構,損失函數,激活函數等)。缺乏模型的可解釋性導致科學界顯着地退縮,因爲很多時候,預測背後的“原因”與預測本身一樣重要。這是該領域內一個經過認真辯論的主題,其中許多都指向由於僞像而實現高精度的模型示例。例如,如果一個人試圖預測患者的白細胞計數並使用一天中的時間作爲輸入,那麼這可能會導致表面上較高的準確性,因爲AI知道後來抽血會導致白細胞計數較低。該結果是由混雜影響所驅動的,在大多數醫院中,深夜抽血大多是在緊急情況下進行的,在緊急情況下患者更可能有較低的白細胞計數。儘管此類因素可能有助於提高報告的準確性,但它們在前瞻性預測中實際上沒有用。

當前,有大量的研究工作正在打開難以解釋的模型的黑匣子。許多人希望爲臨牀任務建立可解釋的DL模型可以幫助加速這些方法在現實世界中的實施。如果臨牀醫生可以輕鬆地理解爲什麼模型預測了某種診斷/預後,他們將更願意將其用於實際患者,因爲他們可以減輕對模型完全基於僞影進行預測的擔心。但是,在諸如AI在診斷中的應用的情況下,建議的工作流程將用於預測模型以指導人類決策,而醫師/醫學專家會審查每個單獨的預測,因此限制了模型完全透明的必要性。例如,當前正在進行的一項臨牀試驗(臨牀試驗編號:NCT03705650)正在測量EchoGPS(一種由AI驅動的軟件)在非超聲檢查專家從超聲圖像中檢測某些心臟疾病時的有效性。該軟件僅在評估超聲時指導醫療專業人員,而不是替代人類的診斷。當然,當犧牲任何數量的可解釋性時,都需要權衡取捨,儘管準確性可能更高,但是可能會保留系統性的偏差,否則可能會被捕獲。因此,在選擇如何優先考慮模型可解釋性時,瞭解給定模型將如何應用於現實環境中非常重要。

可解釋性和透明度特別重要的醫學領域之一是臨牀前和早期藥物開發。這裏需要可解釋的模型,不僅要避免模型依賴無關變量的可能性,而且要揭示潛在的作用機理,更好理解可能會導致更好的藥物定位和毒性意識,最終助長下一代候選藥物的產生。因此,旨在回答諸如“該藥物是否具有毒性”或“該藥物對哪種疾病有效”之類的方法的方法應確保可以清楚地闡明模型背後的原因。對模型可解釋性的這種盡職調查和優先級排序可以通過更全面地瞭解化合物、靶標或疾病來增強AI驅動的藥物開發。

 

模型選擇

模型的可解釋性可以通過多種方式實現。但是,模型的選擇和合理的特徵工程可能會產生最大的影響。根據預測性能(通過測試集或交叉驗證)確定多次選擇模型。根據模型和基礎數據,更適合使用不同的指標。例如, AUROC是常用的性能指標;但是,它可能會引起誤導,並且會在類別嚴重失衡的問題上人爲地誇大其詞。這些模型的性能將通過AUPRC更好地衡量。研究者探索了通過EHR預測2型糖尿病患者深度模型選擇的概念。他們的工作表明,評估各種不同的性能指標可以確定最合適的模型。但是,很多時候可以根據基礎數據來縮小選擇要測試的模型的類型。選擇正確捕捉特徵之間關係的一類模型將導致更好的性能和更高的清晰度。

 

線性模型的可解釋性

線性模型通常被認爲是ML模型中最透明的一類,因爲可變係數可以用來表示每個特徵對輸出的影響。結合了套索和嶺迴歸罰分的一種線性/邏輯迴歸彈性網絡已被廣泛用於癌症中的生物標誌物預測。由於其可解釋性。ENCAPP是一種基於彈性網絡的算法,在預測癌症的預後方面具有顯着的預測能力,並着重強調了模型中的重要變量如何代表生物標誌物候選物。當線性模型適合當前的問題時,它們是一種強大的方法,可實現強大的模型可解釋性。

 

非線性模型的可解釋性

儘管線性模型是可以解釋的,但是當問題本質上是非線性時,它們的精度會很低。隨機森林是一種基於決策樹的方法,是一種廣泛使用的非線性模型,可用於解釋。基於決策樹的模型通常可用於輸出共識樹,具有明確定義的決策點,使科學家能夠了解預測背後的潛在原因。基於決策樹的模型已成功地預測了藥物性質。通過共識樹或特徵重要性分析,模型透明性的額外小步驟將廣泛有益於這些模型的實用性。

很多時候,當使用非線性相關且本質上覆雜的數據類型時,就需要更復雜的模型類型,例如神經網絡。正如Wainberg等解釋說,神經網絡可以對變量相互作用進行建模並輸出假設的中間變量,這些中間變量是隱藏層中神經元的值。Pawlowski等人證明了倒數第二層代表複雜特徵的用途,當時他們使用這種特徵工程技術對顯微鏡圖像中的單個細胞進行了分類。最終,徹底表達變量之間關係的能力使DL在處理複雜數據類型時成爲有吸引力的選擇。

 

特徵選擇

特徵工程是提高任何算法的預測能力的另一個關鍵步驟,並且可以提高模型的清晰度。由於擁有大量可用數據,因此必須謹慎選擇功能,這不僅需要確保模型性能,而且還要確保模型的可解釋性。如果忽略或錯誤處理了特徵選擇,則在不同模型類型之間可能會發生許多陷阱。例如,數據泄漏是一個問題,當包含取決於您的預測變量的功能或在預測時否則無法使用的功能時,將導致性能指標膨脹,最終導致模型無用,而與模型類型無關。此外,從DL模型中提取特徵(涉及將最後一層的值用作特徵)已成爲圖像分析中廣泛使用的技術。儘管這種方法可以產生大量的信息功能,併爲模型準確性帶來有利的結果,但除非進行了適當的盡職調查,否則通常不清楚這些功能代表什麼。如果不強調創建可解釋的工具,那麼其中許多因素很容易被忽略。

通常根據特徵對預測能力的影響來選擇特徵,這種方法可能會忽略其他關鍵特徵,例如現場的先驗知識和數據可訪問性。很多時候,在創建/測試預測模型的過程中進行特徵選擇會確認以前已知的關聯,例如BRCA1預測會發展爲乳腺癌或卵巢癌。但是,當評估大型數據集時,即使經過實驗驗證的關聯也可能被數據的整體噪聲淹沒。因此,整合專家知識的努力可以確保預測是由潛在的生物學機制驅動的,從而使該模型不僅更具解釋性,而且更加可靠。最近,Javanovic等通過結合使用傳統選擇技術和領域知識發現的特徵,利用Tree Lasso正則化模型來預測小兒再入院。他們發現,與使用傳統的套索模型相比,此結果模型更易於解釋,而性能沒有明顯損失。這凸顯了一個事實,即可解釋性不需要與預測能力的權衡取捨。但是,應該指出的是,完全或過於依賴專家知識可能會加劇已知的系統偏見並限制科學發現。因此,對特徵重要性的詳盡搜索對於確保完整的模型透明度和生物學理解至關重要。

與其他方法類似,可以以簡單的方式爲神經網絡完成特徵貢獻的識別。一種常見的技術是向後傳播所有神經元以分配其貢獻。在處理圖像數據時,可以使用反向傳播創建顯著圖,該顯著圖可以直觀地表示每個特徵的重要性。當前和未來的臨牀面臨算法可通過合併諸如此類的特徵選擇技術來受益,以幫助提高模型的可靠性,並確保它們不基於噪聲或系統偏差。

 

3.多樣性豐富模型的重要性

跨數據類型的多樣性

大數據時代已影響到科學的大多數方面,從而爲AI提供了通過大量數據類型進行豐富訓練的機會。不幸的是,許多當前的模型方法將其自身侷限於特定的數據類型。儘管這些模型已經獲得了高性能,並已證明在藥物開發和臨牀流程中發揮了重要作用,但缺少各種數據類型的整合。過去的研究中,研究者已經展示瞭如何結合各種類型的數據來提高許多早期問題的整體預測能力和可解釋性。例如預測基因的必要性和藥物毒性。正如Cheng等人(2003)所述,異質特徵的結合可以更好地捕獲潛在的機制。通過預測藥物相互作用來證明這一點。雖然此示例着重於早期發現,但具有更多樣化數據的預測能力的增強和預測模型的可解釋性適用於所有AI。當試圖回答藥物開發和臨牀決策中的未解決問題時,真正的跨學科方法是獲得完整理解並獲得最準確和可靠結果的唯一方法。

合併各種數據類型雖然對預測模型有價值,但必須謹慎進行,以避免常見的陷阱。由於增加的特徵或更高級的模型體系結構,多樣化數據集成中的一個共同挑戰是增加了模型複雜性。一個例子是多視圖學習,這是一種增強模型體系結構以集成各種特徵類型的方法,由於其靈活的體系結構,在神經網絡中尤其常見。儘管多視圖模型已經在醫學上取得了成功,例如胎兒超聲圖像,但它們的訓練難度更大,並且可能更容易過擬合。複雜模型中的一個普遍問題。但是,只要牢記這些挑戰,合併各種數據類型將對將來的醫學模型有益。

 

樣本間的差異

除了合併各種特徵之外,利用各種不同的樣本還可以提高模型的適用性和整體性能。通常,確保將噪聲限制在數據範圍內會導致問題,即沒有足夠大的人口來創建有意義的預測模型。因此,只有適當地包含不同的樣本,AI的廣泛應用纔有可能。例如,在藥物開發領域,Yuan等人提出了一種多任務模型來預測不同癌症類型之間的藥物療效。由於對癌症類型和藥物化合物之間的深入研究,應該對模型進行鍼對特定藥物或癌症類型的訓練。但是,通過利用多任務方法模型可以從所有這些樣本中獲得的信息中受益,最終實現更好的性能。多任務方法的應用在用於藥物開發的AI中得到了發展。這在很大程度上可以歸因於其勝過先前模型並避免諸如過度擬合之類的陷阱的能力。因此,未來在醫學中的AI應用應集中在樣本多樣性的納入上,以豐富性能並確保模型的廣泛適用性。

 

4.結束語

到目前爲止,從實驗室到臨牀的ML和AI應用都非常強大。但是,隨着該領域的不斷髮展,有許多事情要牢記。爲了確保AI在醫學上的應用發揮出最大的潛力,重要的是生物學必須始終處於模型和實驗設計的最前沿。在早期藥物開發的情況下,可以通過在預測算法中優先考慮可解釋性來實現,從而瞭解潛在的生物學機制。雖然辨別生物學機制對於更多面向患者的應用可能不太重要,但強調可解釋性將有助於確保模型可靠且基於真實信號。在某些情況下,可以設想,將可解釋的AI應用於病理圖像將揭示以前看不見的模式,例如細胞之間的距離以及基質成分的重要性等。醫學天生就是跨學科的,應該反映在用於預測算法的特徵和樣本中,從而允許以系統地理解問題,並在許多情況下提高準確性。測量模型性能的時代結束了。模型評估必須同時考慮性能和可解釋性。

藥物發現已進入下一個領域,我們只看到即將到來的變化的開始。我們相信,隨着AI在藥物開發領域的進步,實驗工作將通過AI而不是反之爲基礎。例如,使用高度可解釋的模型可以幫助您確定哪些特徵最有用,從而可以相應地設計實驗篩選。此外,通過透明的AI努力,我們可以開始瞭解藥物背後的機制,從而可以進行更精確的臨牀試驗。在許多情況下,阻止患者接受挽救生命的療法的唯一原因是對這些藥物缺乏透徹的瞭解。我們必須利用AI賦予我們的設計能力,

雖然構建可解釋,高度預測和強大的模型是醫學界成功進行AI研究不可或缺的一部分,但它依賴於可重複的工作。代碼共享和釋放使用的數據集是確保預測模型的可解釋性和總體有效性的關鍵。高性能ML庫已經使AI研究普遍化,並允許不僅使用這些模型,而且還被各種研究人員所理解。除了開源代碼之外,還需要使用所有使用的數據集來了解各種特徵如何相互作用和影響模型,因此是構建可解釋模型的必要步驟。模型的可解釋性不僅限於創建這些工具的研究人員,而是整個領域的要求。

總體而言,人工智能已經在醫學的各個領域取得了長足的進步,從藥物發現到臨牀決策。我們認爲,只有在我們繼續優先重視生物學理解和數據/模型多樣性以及預測性能的前提下,這些進步纔會繼續增長。

 

參考資料

The Missing Pieces of Artificial Intelligence in Medicine. Coryandar Gilvary,Neel Madhukar,Jamal Elkhader,Olivier Elemento.Trends in Pharmacological Sciences.Elsevier.August 2019

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章