癌症重在預防！用深度學習技術來預測肺癌

對病理學家來說，最困難的工作非判斷患者是否罹患癌症莫屬，診斷結果至關重要。然而病理切片的檢查又極其複雜，病理學家需要經過多年的訓練，再加上豐富的專業知識和經驗才能勝任。儘管如此，人類病理學家也會出現誤診和漏診。如果癌症能儘早發現並及時治療，死亡率就可以降低。於是，人們就研究如何通過深度學習算法，訓練機器學習切片檢查來發現並預測癌症，從而提高診斷的效率，對病理學家和患者來說都是很大的幫助。今天，AI 前線得到原作者 Jerry Wei 授權，翻譯並分享他的文章 Predicting Lung Cancer Mutations with Machine Learning（《用深度學習預測肺癌突變》），希望有所啓迪。

本文最初發佈於 Medium 博客，經原作者 Jerry Wei 授權由 InfoQ 中文翻譯並分享。

我讀了 Nature Medicine （《自然醫學》）雜誌上的最近一篇文章，文章作者提出了利用機器學習技術，通過深度學習預測肺癌基因突變。他們是如何做到的呢？

AI 前線注：這篇文章題目爲 Classification and mutation prediction from non–small cell lung cancer histopathology images using deep learning（《利用深度學習對非小細胞肺癌組織病理學圖像進行分類和突變預測》），網址爲：https://www.nature.com/articles/s41591-018-0177-5

肺癌。 肺癌有兩種主要亞型：腺癌和鱗狀細胞癌。能否對這些亞型進行區分極其重要，因爲每個亞型都有自己的治療方案，針對腺癌和鱗狀細胞癌的靶向治療各不相同。尤其是腺癌需要進行基因突變分析；靶向的原發性突變包括表皮生長因子受體（epidermal growth factor receptor，EGFR）、間變性淋巴瘤受體酪氨酸激酶（anapestic lymphoma receptor tyrosine kinase，ALK）、腫瘤蛋白 53（tumor protein 53，TP53）和 KRAS 突變。

識別這些突變至關重要，因爲每種突變都有專門的治療方法。例如，EGFR 和 ALK 突變已經有了美國食品藥品監督管理局（Food and Drug Administration，FDA）批准的靶向治療。目前分析肺癌組織樣本的方法（組織樣本的人工目視檢查）既詳盡，又有時不準確。此外，這種方法也很難區分腺癌和鱗狀細胞癌。因此，能夠準確分析肺癌組織的自動化機器學習模型將是非常有益的。

每一類的全切片圖像（whole-slide images，WSI）數量，其中 LUSC 代表鱗狀細胞癌，LUAD 代表腺癌。圖片來源：Coudray 等人，論文的原作者。

肺癌影像數據集

作者使用了來自 NCI 基因組數據共享平臺（Genomic Data Commons，GDC）的數據；他們檢索了大約 1700 張全切片圖像，其中 609 例爲鱗狀細胞癌陽性，567 張爲腺癌陽性，459 張爲正常。他們使用滑窗（sliding-window）算法從這些全切片圖像生成了大約 100 萬個 512x512 像素的窗口。基本上，他們在整個組織樣本上滑動一個假象的“窗口”（可以高達 100000x100000 像素），並將每個窗口用做單獨的樣本。然後，他們將得到的 100 萬個窗口進行分割，其中 70% 用作訓練集，15% 用作驗證，15% 用作測試集。

AI 前線注：GDC（Genomic Data Commons）是美國國家癌症研究所（National Cancer Institute，NCI）的研究計劃，使命是爲癌症研究界提供統一的數據存儲庫，以便在癌症基因組研究中共享數據，支持精準醫學。它包含幾個大規模的癌症基因組研究計劃的數據，包括 TCGA、OCG。而 OCG 包括兩項支持癌症分子鑑定的計劃，TARGET 和 CGCI。

本文采用的數據處理策略。圖片來源：Coudray 等人，論文的原作者

使用 Inception v3 進行機器學習

作者的模型基於 Inception V3 架構，它使用不同內核大小的卷積和最大池化層組成的 Inception 模塊。*你說的這個卷積是什麼？我主要講的是卷積神經網絡（convolutional neural networks，CNN）；這些神經網絡特別擅長圖像處理，而這恰好是本文試圖要做的事情。

AI 前線注：Inception V3 是深度神經網絡的架構之一，最早由 Google 於 2014年發佈 Inception V1，2015 年發佈 Inception V2。Inception V3 在 Inception V2 的基礎上用RMSProp 代替 SGD，替換了一個 7x7 的卷積層爲 3x3 的卷積層。具體詳情可參閱 What is the difference between Inception V2 and Inception V3?
（《Inception V2 與 Inception V3 的區別》：https://datascience.stackexchange.com/questions/15328/what-is-the-difference-between-inception-v2-and-inception-v3

遷移學習

本文還將遷移學習應用於腺癌和鱗狀細胞癌的分類。但什麼是遷移學習？遷移學習基本上是一種使用他人模型的方法。神經網絡具有層間權重，這些權重有利於模型的實際運行。因此，如果你能得到這些精確的權重，那麼你本質上就是複製粘貼模型。這就是所謂的遷移學習——使用他人訓練的權重，然後根據你自己的目的對其進行微調。在本例中，作者使用了在 ImageNet 競賽中表現最佳的權重，並對肺癌數據進行了微調。當然，還有一些其他超參數用於模型，損失函數（交叉熵）、學習率 (0.1)、權重衰減 (0.9)、動量 (0.9) 和優化器（RMSProp）。

熱圖顯示了模型所觀察的內容。圖片來源：Coudray 等人，論文的原作者

訓練

因爲他們有兩個不同的任務（預測腺癌和鱗狀細胞癌以及預測腺癌切片的基因突變），他們訓練了模型的多種變體，在第一項任務中，他們訓練模型來預測正常組織與腺癌、鱗狀細胞癌。對於第二項任務，他們訓練模型來預測每個二元基因突變，而不是作爲多類分類器。這意味着它們的實現允許肺癌組織中的每個 512x512 切片對不止一個基因圖片呈陽性。對於這兩項任務，他們對模型進行了 500000 次迭代的訓練。

結果

他們通過幾種方法驗證了模型的有效性。首先他們將模型與病理學家進行了比較。在獨立的測試集上，被模型錯誤分類的切片中，有 50% 也被病理學家錯誤分類；而被病理學家錯誤分類的切片中，有 83% 被模型正確分類。這被視爲模型表現與病理學家不相上下的證據。作者還計算了模型對每個基因突變的正確率，發現該模型比彩塑所有的突變要好得多。

該模型實現的每個突變在 ROC 曲線（Receiver Operating Characteristic，受試者工作特徵曲線）面積得分。圖片來源：Coudray 等人，論文的原作者。

這意味着什麼？

作者創建了一種學習模型，能夠以合理的正確度對肺癌基因突變進行分類，並能夠識別兩種肺癌亞型之間的差異。這顯示了機器學習的強大功能，它的應用是如何的廣泛。該模型主要用於協助病理學家進行診斷，使診斷過程仍然保持半手工的狀態。那麼，這個模型還能做什麼呢？* 在未來，作者將應用該模型嘗試對較不常見的肺癌進行分類，包括大細胞癌和小細胞癌。引入他們的模型也有可能帶來高精度的肺癌組織的全自動分析，這既減少了分析時間，又減少了潛在的人爲錯誤。

也許在未來，我們能夠通過機器學習，讓計算機爲人類診斷疾病。

下面列出我認爲人們可能感興趣的一些其他資源：

原文鏈接：Predicting Lung Cancer Mutations with Machine Learning

癌症重在預防！用深度學習技術來預測肺癌

肺癌影像數據集

使用 Inception v3 進行機器學習

遷移學習

訓練

結果

這意味着什麼？

爲什麼預訓練語言模型 ELMo 是NLP的最大進步之一？

BERT爲什麼是NLP的革新者

癌症重在預防！用深度學習技術來預測肺癌

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結