癌症重在預防!用深度學習技術來預測肺癌

對病理學家來說,最困難的工作非判斷患者是否罹患癌症莫屬,診斷結果至關重要。然而病理切片的檢查又極其複雜,病理學家需要經過多年的訓練,再加上豐富的專業知識和經驗才能勝任。儘管如此,人類病理學家也會出現誤診和漏診。如果癌症能儘早發現並及時治療,死亡率就可以降低。於是,人們就研究如何通過深度學習算法,訓練機器學習切片檢查來發現並預測癌症,從而提高診斷的效率,對病理學家和患者來說都是很大的幫助。今天,AI 前線得到原作者 Jerry Wei 授權,翻譯並分享他的文章 Predicting Lung Cancer Mutations with Machine Learning(《用深度學習預測肺癌突變》),希望有所啓迪。

本文最初發佈於 Medium 博客,經原作者 Jerry Wei 授權由 InfoQ 中文翻譯並分享。

我讀了 Nature Medicine (《自然醫學》)雜誌上的最近一篇文章,文章作者提出了利用機器學習技術,通過深度學習預測肺癌基因突變。他們是如何做到的呢?

AI 前線注:這篇文章題目爲 Classification and mutation prediction from non–small cell lung cancer histopathology images using deep learning(《利用深度學習對非小細胞肺癌組織病理學圖像進行分類和突變預測》),網址爲:https://www.nature.com/articles/s41591-018-0177-5

肺癌。 肺癌有兩種主要亞型:腺癌和鱗狀細胞癌。能否對這些亞型進行區分極其重要,因爲每個亞型都有自己的治療方案,針對腺癌和鱗狀細胞癌的靶向治療各不相同。尤其是腺癌需要進行基因突變分析;靶向的原發性突變包括表皮生長因子受體(epidermal growth factor receptor,EGFR)、間變性淋巴瘤受體酪氨酸激酶(anapestic lymphoma receptor tyrosine kinase,ALK)、腫瘤蛋白 53(tumor protein 53,TP53)和 KRAS 突變。

識別這些突變至關重要,因爲每種突變都有專門的治療方法。例如,EGFR 和 ALK 突變已經有了美國食品藥品監督管理局(Food and Drug Administration,FDA)批准的靶向治療。目前分析肺癌組織樣本的方法(組織樣本的人工目視檢查)既詳盡,又有時不準確。此外,這種方法也很難區分腺癌和鱗狀細胞癌。因此,能夠準確分析肺癌組織的自動化機器學習模型將是非常有益的。

每一類的全切片圖像(whole-slide images,WSI)數量,其中 LUSC 代表鱗狀細胞癌,LUAD 代表腺癌。圖片來源:Coudray 等人,論文的原作者。

肺癌影像數據集

作者使用了來自 NCI 基因組數據共享平臺(Genomic Data Commons,GDC)的數據;他們檢索了大約 1700 張全切片圖像,其中 609 例爲鱗狀細胞癌陽性,567 張爲腺癌陽性,459 張爲正常。他們使用滑窗(sliding-window)算法從這些全切片圖像生成了大約 100 萬個 512x512 像素的窗口。基本上,他們在整個組織樣本上滑動一個假象的“窗口”(可以高達 100000x100000 像素),並將每個窗口用做單獨的樣本。然後,他們將得到的 100 萬個窗口進行分割,其中 70% 用作訓練集,15% 用作驗證,15% 用作測試集。

AI 前線注:GDC(Genomic Data Commons)是美國國家癌症研究所(National Cancer Institute,NCI)的研究計劃,使命是爲癌症研究界提供統一的數據存儲庫,以便在癌症基因組研究中共享數據,支持精準醫學。它包含幾個大規模的癌症基因組研究計劃的數據,包括 TCGA、OCG。而 OCG 包括兩項支持癌症分子鑑定的計劃,TARGET 和 CGCI。

本文采用的數據處理策略。圖片來源:Coudray 等人,論文的原作者

使用 Inception v3 進行機器學習

作者的模型基於 Inception V3 架構,它使用不同內核大小的卷積和最大池化層組成的 Inception 模塊。*你說的這個卷積是什麼? 我主要講的是卷積神經網絡(convolutional neural networks,CNN);這些神經網絡特別擅長圖像處理,而這恰好是本文試圖要做的事情。

AI 前線注:Inception V3 是深度神經網絡的架構之一,最早由 Google 於 2014年發佈 Inception V1,2015 年發佈 Inception V2。Inception V3 在 Inception V2 的基礎上用RMSProp 代替 SGD,替換了一個 7x7 的卷積層爲 3x3 的卷積層。具體詳情可參閱 What is the difference between Inception V2 and Inception V3?
(《Inception V2 與 Inception V3 的區別》:https://datascience.stackexchange.com/questions/15328/what-is-the-difference-between-inception-v2-and-inception-v3

遷移學習

本文還將遷移學習應用於腺癌和鱗狀細胞癌的分類。但什麼是遷移學習?遷移學習基本上是一種使用他人模型的方法。神經網絡具有層間權重,這些權重有利於模型的實際運行。因此,如果你能得到這些精確的權重,那麼你本質上就是複製粘貼模型。這就是所謂的遷移學習——使用他人訓練的權重,然後根據你自己的目的對其進行微調。在本例中,作者使用了在 ImageNet 競賽中表現最佳的權重,並對肺癌數據進行了微調。當然,還有一些其他超參數用於模型,損失函數(交叉熵)、學習率 (0.1)、權重衰減 (0.9)、動量 (0.9) 和優化器(RMSProp)。

熱圖顯示了模型所觀察的內容。圖片來源:Coudray 等人,論文的原作者

訓練

因爲他們有兩個不同的任務(預測腺癌和鱗狀細胞癌以及預測腺癌切片的基因突變),他們訓練了模型的多種變體,在第一項任務中,他們訓練模型來預測正常組織與腺癌、鱗狀細胞癌。對於第二項任務,他們訓練模型來預測每個二元基因突變,而不是作爲多類分類器 。這意味着它們的實現允許肺癌組織中的每個 512x512 切片對不止一個基因圖片呈陽性。對於這兩項任務,他們對模型進行了 500000 次迭代的訓練。

結果

他們通過幾種方法驗證了模型的有效性。首先他們將模型與病理學家進行了比較。在獨立的測試集上,被模型錯誤分類的切片中,有 50% 也被病理學家錯誤分類;而被病理學家錯誤分類的切片中,有 83% 被模型正確分類。這被視爲模型表現與病理學家不相上下的證據。作者還計算了模型對每個基因突變的正確率,發現該模型比彩塑所有的突變要好得多。

該模型實現的每個突變在 ROC 曲線(Receiver Operating Characteristic,受試者工作特徵曲線)面積得分。圖片來源:Coudray 等人,論文的原作者。

這意味着什麼?

作者創建了一種學習模型,能夠以合理的正確度對肺癌基因突變進行分類,並能夠識別兩種肺癌亞型之間的差異。這顯示了機器學習的強大功能,它的應用是如何的廣泛。該模型主要用於協助病理學家進行診斷,使診斷過程仍然保持半手工的狀態。那麼,這個模型還能做什麼呢?* 在未來,作者將應用該模型嘗試對較不常見的肺癌進行分類,包括大細胞癌和小細胞癌。引入他們的模型也有可能帶來高精度的肺癌組織的全自動分析,這既減少了分析時間,又減少了潛在的人爲錯誤。

也許在未來,我們能夠通過機器學習,讓計算機爲人類診斷疾病。

下面列出我認爲人們可能感興趣的一些其他資源:

原文鏈接:Predicting Lung Cancer Mutations with Machine Learning

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章