谷歌乳腺癌Detecting Cancer Metastases on Gigapixel Pathology Images

Detecting Cancer Metastases on Gigapixel Pathology Images

在高分辨率的病理圖片上檢測癌症轉移

Liu Y, Gadepalli K, Norouzi M, et al. Detecting cancer metastases on gigapixel pathology images[J]. arXiv preprint arXiv:1703.02442, 2017.


總結

使用Camelyon16的數據集,目標是檢測病理切片中的乳腺癌區域,並對該病人做出診斷。模型是Inception-v3,裁剪圖片的時候裁剪299,間隔128,數據集標註是pixel-level,patch的標註根據patch中心128x128中是否有癌症來確定。用等概率選取正常和癌症的採樣來解決癌症和正常patch的數據不平衡;數據擴增來解決癌症patch少的問題。預測的時候滑窗,選取有組織的部分,間隔128,裁剪大小299,只預測中間128區域。模型融合,同一張patch旋轉翻轉總共8張取平均,獨立的訓練模型,大於3個收益少。最後合成一張熱力圖。

ImageNet預訓練模型能夠加快收斂速度,但是不能提高FROC。多尺度40X,20X結合還好,多了效果沒有提升。顏色標準化其他的論文都有效,但是本文沒有效果,可能是因爲數據擴增學到了足夠的顏色信息。

non-maxima suppression方法將熱力圖轉化爲掩膜,maximum Function來預測病人是否患有乳腺癌。


摘要

美國每年有超過23萬病例需要根據癌症轉移程度來指定治療方案,依據的病理切片診斷耗時而且誤差大。本文提出了一種框架來自動檢測和定位高像素圖片中的癌症。使用CNN在Camelyon2016數據集上,檢測出了92.4%的癌症區域,而人只有73.2的敏感度(recall)。我們方法在圖片級別的AUC是97%,在camelyon2016測試集和另外一個110張切片的數據集上。另外還找出了2個camelyon16數據集上的標註錯誤。本文方法可以顯著減小假陰性。

1. 引言

乳腺癌治療方案依賴於癌症階段,根據前哨淋巴切片需要有經驗的醫師和時間,並且誤差大。計算機幫助診斷。

CNN在計算機視覺領域很好,同樣可以用在醫療方面。

本文提出了CNN框架來輔助檢測淋巴節點的乳腺癌轉移。主要用最近的Inception結構,仔細的圖片patch採樣和數據擴增。即使使用步長爲128(原來是4,預測裁剪pach的步長?),使假陽性FP減半。同時也發現了幾種方法沒有好處:一是模仿病理學家診斷生物組織的多尺度方法;二是ImageNet的預訓練模型;三是顏色標準化。最後我們啓用了隨即森林和構造的特徵,發現最大函數是一種高效的wsi步驟。

相關工作。Camelyon16的冠軍得到了敏感度(recall)75%,wsi的AUC是92.5%。作者用pre-sample(欠採樣?過採樣?還是預先選好訓練集?)構建數據集,訓練了Inception-v1,手動構造了28個特徵訓練隨機森林分類器來預測大圖的標註。後來又訓練了一個Inception模型,取了平均。這個隊伍提高分數到了82.7%和99.4%使用顏色標準化,另外的數據增強,降低inference步長從64到4。Camelyon組織者也在小數據集上訓練了CNN,來檢測乳腺癌,也用它來做細胞核、上皮組織等的分割或者檢測,F1score較高,準確率也還好。在ICPR12和AMIDA13中也用來檢測細胞有絲分裂。其他也用奇蹟學習來預測癌症,包括在肺部的。

2. 方法

給定一張大圖,目標是識別圖片中的癌症並定位。癌症的檢測和定位比基於像素的分類更加重要。因爲病理切片很大,而且切片很少(270),所以從切片中裁剪出小的patch。同樣地在預測的時候,用滑窗把切片裁剪,然後合成一張概率熱力圖。對於每張切片,把熱力圖中最大的值作爲切片的預測值。

使用Inception-v3模型,輸入的切片大小爲299,只預測中心128x128區域的標註,只要中間128區域中出現了癌症標註,那麼就認爲這張切片是癌症。嘗試過通過減少卷積核數量來開發參數數量的影響,也實驗了多尺度方法,使用在不同倍率下的切片來裁剪patch。結果發現使用4個倍率沒有好處,所以我們的結果中只有2個倍率。

癌症比正常少的數據不平衡給訓練和評估帶來難處,通過採樣來解決。首先等概率選擇正常和癌症,其次選擇一張類別均勻的切片,從這張切片中採樣(當作驗證還是測試?)。現有的方法中都是通過pre-sample(預先選好訓練集?),會限制訓練的時候patch的寬度。

癌症patch少,使用數據擴增來解決。90度*4的旋轉,左右翻轉,再重複旋轉(有必要嗎?),就可以有8個方向,因爲病理切片的方向沒有一個權威的方向。其次使用tensorflow的圖像庫來實現64/255的亮度,max_delta0.25的飽和度,max_delta0.04的色度,max_delta0.75的對比度。最後在裁剪patch的時候有一個8像素的抖動。驗證集中用了少量的顏色和抖動(驗證集也用擴增?)。像素值限定在[0,1]之間,然後scaled到[-1,1]。

預測的時候使用滑窗,間隔128裁剪來得到中心區域。對於每個patch,通過旋轉和左右翻轉來獲得8個預測,平均得到最後的預測結果。

實現細節。batch_size32,使用PMSProp,momentum動量因子0.9,decay衰減0.9,ϵ=1.0 初始學習率0.05,每2百萬衰減0.5。預訓練ImageNet的初始學習率是0.002。

要點

  1. 用Inception-v3模型,輸入圖片299,只要中間128區域有癌症,就標記爲癌症,裁剪間隔128
  2. 癌症比正常少的數據不平衡,均勻取癌症和正常patch
  3. 癌症patch少,使用90度旋轉、左右翻轉、對比度色度亮度飽和度、裁剪時隨機抖動,數據擴增來解決
  4. 預測的時候間隔裁剪128來覆蓋中間區域,對於每個patch旋轉左右翻轉得到8張,分別預測取平均作爲最後預測的結果

3. 評價和數據集

用了2個Camelyon16的評價指標。用AUC(ROC曲線的面積,定積分)來評價切片級別的分類。因爲每張切片都有100000左右張patch,導致了潛在的假陽性FP,所以AUC提升有難度。我們用自舉bootstrap(通過部分樣本反映整體的方法,和假設檢驗類似https://en.wikipedia.org/wiki/Bootstrapping_(statistics))方法獲得了95%置信區間的值。

第二個指標是FROC,用來評價癌症檢測和定位。首先生成一系列的座標,然後從各自的熱力圖中得到預測值。在每個帶標註的腫瘤區域內的所有座標中,保留最大的預測。在腫瘤區域外的座標就是假陽性。用這些值去計算ROC。每個非腫瘤切片平均假陽性敏感度0.25、0.5、1、2、4、8來定義FROC。這個指標有難度,因爲假陽性區域的點能夠很快拉低分數。用FROC和AUC,來提高評價指標的可靠性。和AUC一樣,95%的執行區間,通過2000+的bootstrap樣本來計算FROC。另外用8FP的敏感度來評估假陰性(FN)率。

camelyon冠軍用閾值,將概率熱力圖轉化爲二值掩膜。本文用non-maxima suppression方法,閾值t來將熱力圖轉化爲掩膜。重複1. report最大值和最大的座標;2. 最大值爲中心,r爲半徑中的點最大值設爲0;直到熱力圖中沒有值。其中r是128個像素,t控制report的點數量,對FROC沒有影響,除非曲線的plateaus在8FP之前。爲了防止降低癌症的預測,使用保守的閾值t=0.5。

數據集。使用Camelyon16的數據集,包含400張切片,270張像素標記的切片,130張沒有標註的切片作爲測試集。

數據集劃分

爲了減少計算,用灰度閾值0.8排除背景patch,手動檢查組織是否有遺棄。

另外的評價NHO-1。用了另外的從20個病人的110張切片,57張包含癌症,由權威的病理專家來判斷。

4. 實驗和結果

現有的方法從預測的熱力圖中提取特徵,用隨機森林來進行切片級的分類。不幸的是我們不能訓練切片級的分類器,因爲驗證集的AUC是100%,沒有提高的可能。除非使用每張切片熱力圖取得的AUC>97%的最大值,統計上來說和現在最好的結果沒有區別。

爲了癌症級別的分類器,發現連通分支方法connected component方法在FROC比較小的時候(<80%)能夠提高1%-5%。但是這種方法對閾值很敏感,會混淆通過癌症多種提升模型的評價。相反本文的方法non-maxima suppression相對r4-6不敏感,除非驗證集上準確率很低,調整r到8。最後得到100%FROC在大的癌症,表明大多數的FN都是由小的癌症組成的。

預訓練模型在不同的領域能夠提高性能。但是發現本文中可以提高收斂速度,但是不能提高FROC。可能是因爲ImageNet的自然圖像和病理圖像差別太大。另外,本文的數據集大,數據擴增都能夠在沒有預訓練的情況下提高模型訓練時候的準確率。

其次檢測了模型規模。當初只是爲了加快試驗時間,減少了3%的參數,但是和完全版本的效果一樣,因此後面都是用縮小版的。

受病理學家檢測的啓發,使用多分辨率來檢測。然而發現用40X和低分辨率性能沒有提高,但是整合這些輸出能夠平滑熱力圖,可能是因爲CNN的平移不變性和鄰近patch的重疊。這些視覺上的提高是迷惑性的:40X的模型顯示小的非癌症區域被癌症包圍着。

多尺度

現有的方法中顯示顏色標準化可以提高性能,但是本文的實驗發現沒有,可能是因爲額外的數據增強讓模型能夠學習顏色不變的特徵。

最後用兩種方式實現了模型融合。第一,在預測的時候平均8個方向能夠有一定的提高。第二,融合獨立的模型能夠額外提高一點分數,但是融合3個以後提升就很少了。

另外的驗證。在110張切片上測試,AUC是97.6(93.6, 100),和在Camelyon16上的分數差不多。
定性評估。086和144切片的病人沒有感染,但是標註是癌症,都在訓練集中,說明我們的模型抗噪能力強。另外的,發現7張標註不完全的癌症切片,5張在訓練集中2張在驗證集中。預測和對應的patch都在附錄中。

侷限性。錯誤發生在一些不需要關注的組織(巨噬細胞、基質)和組織準備。更好的掃描質量、組織準備和更完整的不同組織類型標註能夠改善這些錯誤。另外,模型的超參數都是爲了能夠提高驗證的FROC和AUC。

5. 總結

本文的方法在高分辨率的病理切片上檢測小的癌症的敏感度超過的現有水平,減少了FN率。在兩個獨立的測試集上的AUC超過病理學家水平。本文方法能夠提高準確率、乳腺癌症評估的一致性和潛在地提高病人檢測。未來的工作是在大數據集上的提升。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章