Deep Semantic Segmentation of Natural and Medical Images: A Review——翻譯

Title Deep Semantic Segmentation of Natural and Medical Images: A Review
標題 自然和醫學圖像深度語義分割綜述
pdf地址 https://arxiv.org/pdf/1910.07655.pdf

摘要

  (醫學)圖像語義分割任務包括將圖像的每個像素(或幾個像素)分類爲一個實例,其中每個實例(或類別)對應一個類。 此任務是場景理解概念的一部分,或者更好地解釋圖像的全局上下文。 在醫學圖像分析領域,圖像分割可用於圖像引導干預,放射治療或改進的放射學診斷。 在這篇綜述中,我們將領先的基於深度學習的醫學和非醫學圖像分割解決方案分爲六大類:深度架構,基於數據合成,基於損失函數,序列模型,弱監督和多任務方法。 此外,對於每一類方法,我們分析了他們的每個變體,並討論了當前方法的侷限性以及語義圖像分割的未來研究方向。

1. 簡介

  深度學習對科學的各個領域產生了巨大的影響。當前研究的重點是計算機視覺的最關鍵領域之一:醫學圖像分析(或醫學計算機視覺),尤其是基於深度學習的醫學圖像分割方法。分割是自然圖像中重要的處理步驟,用於場景理解和醫學圖像分析,用於圖像指導的干預,放射療法或改進的放射學診斷等。許多用於醫學影像分割的深度學習方法在文獻中被提出用於不同的醫學成像模式,包括X射線,可見光成像(例如彩色皮膚鏡圖像),磁共振成像(MRI),正電子發射斷層掃描(PET),計算機斷層掃描(CT)和超聲(例如超聲心動圖掃描)。深度架構的改進一直是許多研究人員針對不同目的的關注點,例如,解決深度模型的梯度消失和爆炸,有效的小型但精確的模型壓縮,而其他工作則嘗試通過引入新的優化函數來改善深度網絡的性能。

  與其他關於基於深度學習的自然圖像和醫學圖像語義分割的綜述文獻[35,41,47,52,71,140,179]相比,我們有以下貢獻:

  • 我們全面介紹了自然和醫學圖像語義分割領域的研究成果。 在成像方式方面,我們涵蓋了2D(RGB和灰度)和立方體醫學圖像。
  • 我們基於語義分割文獻的貢獻性質將其分爲六類:體系結構改進,基於優化功能的改進,基於數據合成的改進,弱監督模型,序列模型和多任務模型。 圖1指出了我們在此綜述中涵蓋的類別。
  • 在進行全面綜述之後,我們認識到並建議了每個類別的重要研究方向
    在這裏插入圖片描述
      在以下各節中,我們將討論在圖1中可視化的不同類別下的深度語義圖像分割的改進。對於每個類別,我們首先回顧非醫學數據集的改進,然後在下一節中,我們調研針對醫學圖像的改進。

2. 網絡架構改進

  本節討論使用卷積神經網絡(CNN)進行語義圖像分割的進展,這些進展已應用於自然圖像和醫學圖像的解譯任務[36,84]。 改進主要歸因於探索新的神經體系結構(具有不同的深度,寬度,連接性或拓撲結構)或設計了新型的組件或層

2.1 全卷積神經網絡(FCN)用於語義分割

  作爲第一個基於CNN的高影響力分割模型,Long等人 [86]提出了全卷積網絡的像素級標記。 他們建議對輸出激活圖進行上採樣(解卷積),從中可以計算出逐像素的輸出。 網絡的整體架構如圖2所示。爲了保留圖像中的上下文空間信息,Long等人建議將輸出與較淺層的輸出融合。 融合步驟如圖3所示。
在這裏插入圖片描述
在這裏插入圖片描述

2.2 編解碼器語義圖像分割網絡

  接下來,引入了諸如SegNet的編碼器-解碼器分割網絡[103] [7]。 解碼器網絡的作用是將低分辨率編碼器特徵映射到全輸入分辨率,以進行像素分類。 SegNet的新穎之處在於解碼器對較低分辨率的輸入特徵圖進行上採樣的方式。 具體來說,解碼器使用在相應編碼器的最大池化步驟中計算出的池化索引(圖4)來執行非線性上採樣。 該體系結構(圖4)由一系列非線性處理層(編碼器)和一組相應的解碼器層組成,隨後是逐像素分類器。通常,每個編碼器由一個或多個具有BN和ReLU非線性的卷積層組成,然後進行非重疊的最大池化下采樣。在解碼器中,使用編碼序列中的最大池化索引,對由於池化過程導致的稀疏編碼進行上採樣。
在這裏插入圖片描述
圖4:頂部:SegNet架構的圖示。 沒有完全連接的層,只有卷積層。 下圖:SegNet和FCN [86]解碼器的圖示。 a,b,c,d對應於特徵圖中的值。 SegNet使用最大池索引對特徵圖進行升採樣(無需學習),並執行卷積操作與可訓練的解碼器濾波器組。 FCN通過學習對輸入特徵圖進行反捲積來進行上採樣,並添加相應的編碼器特徵圖以產生解碼器輸出。 此特徵圖是相應編碼器中最大池化層的輸出。

  Ronneberger等。 [119]提出了一種體系結構(U-Net),該體系結構由捕獲上下文的收縮路徑和允許精確定位的對稱擴展路徑組成。 與圖像識別(He等人[45])和關鍵點檢測(Honari等人[49])相似,Ronneberger等人(2007年)在編碼器/解碼器圖像分割網絡中添加了跳層連接(圖5),提高了模型的準確性並解決了梯度消失的問題。
在這裏插入圖片描述
  Milletari等[91]提出了一種類似的架構(V-Net;(圖6)),該架構增加了殘差連接,並用3D操作替換了2D操作以處理立體圖像。 Milletari等還建議針對廣泛使用的分割指標(即Dice)進行優化,這將在第4節中詳細討論。
在這裏插入圖片描述
  Jeugo等[58]通過改編類似編碼器-解碼器框架的U-Net,開發了密集連接網絡體系結構(DenseNet)[53]的分割版本FCDensenNet。 在圖7中,顯示了網絡的詳細架構。
在這裏插入圖片描述
圖7:一百層提拉米蘇網絡架構圖[58]。 該體系結構是由密集的塊構建的。 該架構由向下過渡兩個的下采樣路徑和向上過渡兩個的上採樣路徑組成。 圓圈表示串聯,箭頭表示網絡中的連接模式。 灰色的水平箭頭表示跳過連接,其中來自下采樣路徑的特徵圖與上採樣路徑中的相應特徵圖串聯在一起。 請注意,上採樣路徑和下采樣路徑中的連接模式不同。 在下采樣路徑中,將密集塊的輸入與其輸出連接在一起,從而導致特徵圖數量的線性增長,而在上採樣路徑中,情況並非如此。

  編碼器-解碼器網絡的幾種修改版本(例如,更深/更淺,添加了額外的關注塊)已應用於語義分割[5、32、82、107、113、155、170]。 最近在2018年,DeepLabV3 + [23]在PASCAL VOC 2012 [29]和Cityscapes [177]數據集上的表現優於許多最新的分割網絡。 趙等[172]修改了[86]提出的特徵融合操作,提出使用空間金字塔池化模塊用於深度神經網絡中的語義分割任務(圖9)。 **空間金字塔網絡PSPNet)**能夠編碼多尺度上下文信息,通過使用濾波器或池化操作以多種擴張率和多個有效視場。後者通過逐漸恢復空間信息來捕獲更清晰的對象邊界。
在這裏插入圖片描述
圖9:金字塔場景解析網絡概述。 給定輸入圖像(a),提取最後一個卷積層的特徵圖(b),然後應用金字塔解析模塊收集不同的子區域表示形式,然後進行上採樣和串聯層形成最終的特徵表示形式, (c)中包含局部和全局上下文信息。 最後,將該表示饋入卷積層以獲得最終的逐像素預測(d)[172]。

  Chen等[23]提出將擴張卷積和特徵金字塔池化的優點結合起來。 特別地,DeepLabv3 + 通過添加一個簡單而有效的解碼器模塊(圖10)來擴展DeepLabv3 [21],以細化分割結果,尤其是對象邊界
在這裏插入圖片描述
圖10:DeepLabV3 +的示意圖; 編碼器模塊通過在多個尺度上應用擴張卷積來編碼多尺度上下文信息,而簡單而有效的解碼器模塊則沿對象邊界細化分割結果[23]。

2.3 降低圖像分割網絡的計算複雜度

  在減少深度分類網絡的時間和減少計算複雜度方面已經進行了一些工作[50,74]。其他一些工作試圖簡化深層網絡的結構,例如通過張量分解[69],通道/網絡修剪[152]或應用稀疏連接[43]。一些方法專注於深度圖像分割網絡的複雜度優化。與Saxena等人的工作類似[123],Liu等[85]提出了一種層次神經結構搜索,通過執行單元級和網絡級搜索用於語義分割,並獲得了與PASCAL VOC 2012 [29]和Cityscapes [177]數據集上的最新結果相當的結果。相反,Chen等[20]集中於使用隨機搜索來搜索小得多的無空間金字塔池化模塊。

  除了網絡架構搜索,Srivastava等 [132]修改了ResNet,以控制通過連接的信息流。 Lin等採用了一步融合而不過濾通道。

2.4 基於注意力的圖像語義分割

  可以將注意力視爲從多個特徵圖來選擇和定位輸入信號中最具判別力的部分。 Hu等 [51]提出了一種選擇機制,其中特徵圖首先使用全局平均池進行聚合,然後縮減爲單個通道描述符。然後使用激活門突出顯示最具判別性的特徵。 Wang等 [146]爲深度殘差網絡(ResNet)添加了一個注意力模塊,用於圖像分類。他們提出的注意力模塊由幾個編碼-解碼層組成。 Fu等 [31]提出了應用空間和通道的注意力的雙重注意力網絡。

  Li等[76]提出了一種基於金字塔注意力的網絡用於語義分割。他們結合了注意力機制和空間金字塔,以提取精確的密集特徵進行像素標記,而不是複雜的擴張卷積和人爲設計的解碼器網絡。 Chen等[22]將注意力集中在採用多尺度輸入的DeepLab上。

2.5 對抗性語義圖像分割

  暫時略過。

2.6 小結

  用於圖像分割的主要模型多采用U-Net等編解碼器結構。研究表明,擴張卷積和特徵金字塔池化可以改善u型網絡的性能。在第3節中,我們總結了這些方法以及它們的改進版本是如何應用於醫學圖像的。

3. 適用於醫學圖像的結構改進

  在本節中,主要對基於深度學習的2D和3D醫學圖像分割的體系結構的改進進行綜述,由於不是該領域研究者,並且文章所列舉研究不具代表性,所以暫時略過。

4. 基於優化函數的改進

  除了使用第2節中提到的體系結構改進來提高分割速度/準確性外,設計新的損失函數也可以提高隨後的推理時間和分割精度。

4.1 交叉熵

  用於圖像分割的最常用的損失函數是逐像素交叉熵損失(公式2)。 這種損失會逐個檢查每個像素,將類別預測向量與one-hot編碼向量進行比較。 對於二元分割的情況,令P(Y=0)=pP(Y = 0) = pP(Y=1)=1pP(Y = 1) = 1 − p。 預測由sigmoid函數給出,P(Y^=0)=11+ex=p^P(\hat{Y}=0)=\frac{1}{1+e^{-x}}=\hat{p}, P(Y^=1)=111+ex=1p^P(\hat{Y}=1)=1-\frac{1}{1+e^{-x}}=1-\hat{p},其中xx是網絡的輸出。 然後可以將交叉熵(CE)定義爲:
在這裏插入圖片描述
  用於多類分割的方程式的一般形式可以寫爲:
在這裏插入圖片描述

4.2 加權交叉熵

  交叉熵損失會分別評估每個像素向量的類別預測,然後對所有像素進行平均,這意味着對圖像中每個像素的學習均等。 如果各個類別在圖像中的表示形式不平衡,則可能會出現問題,因爲最普遍的類別可能會主導訓練。 Long等 [86]討論了加權每個類的交叉熵損失(WCE),以抵消數據集中存在的類不平衡現象。 WCE被定義爲:
在這裏插入圖片描述
  爲了減少假陰性的數量,將β設置爲大於1的值,並且爲了減少假陽性的數量,將β設置爲小於1的值。爲了對負像素也進行加權,可以使用以下平衡的交叉熵 (BCE)[159]:
在這裏插入圖片描述
Ronnenberger等[119],在交叉熵函數中添加了一個距離函數,以強制學習組件間的距離,進而在目標距離極其相近的的情況下強制得到更好的分割結果,如下所示:
在這裏插入圖片描述
其中d1(x)d1(x)d2(x)d2(x)是計算細胞分割問題中最近細胞和第二近細胞邊界距離的兩個函數。

4.3 Focal Loss

  爲了減少簡單樣本的權重,使CNN更多地關注難分樣本,Lin等人[83]改進交叉熵損失如下所示:
在這裏插入圖片描述
設置γ=0γ= 0,該等式將等效於BCE。

4.4 基於重疊度量的損失函數

4.4.1 Dice Loss / F1 Score

  用於圖像分割任務的另一個流行的損失函數是基於Dice係數的,Dice係數實質上是兩個樣本之間重疊的度量,並且等效於F1分數。 此度量的範圍是0到1,其中Dice係數爲1表示完全重疊。 骰子係數(DC)的計算公式爲:
在這裏插入圖片描述
  相似地,Jaccard指標(IoU)的計算公式爲:
在這裏插入圖片描述
其中X和Y分別是預測和GT分割。 TP爲真陽性,FP爲假陽性,FN爲假陰性。 我們可以看到DCIoUDC≥IoU
  要將其用作損失函數,可以將DC定義爲骰子損失(DL)函數[91]:
在這裏插入圖片描述
其中,p{0,1}np\in \{0, 1\}^n, 0p^10 \leq \hat{p} \leq 1ppp^\hat{p}是真值和預測分割結果,<,><\cdot , \cdot>表示點乘運算。

4.4.2 Tversky Loss

  Tversky Loss(TL)[122]是Dice Loss的一般形式。 爲了控制FP和FN的水平,TL對其加權如下:
在這裏插入圖片描述
β=0.5\beta=0.5時,公式11就演化成公式10。

4.4.3 指數對數損失(Exponential Logarithmic Loss Wong)

  Wong等[156]提出使用指數對數骰子損失(LeldL_{eld})和加權指數交叉熵損失(LweceL_{wece})的加權和,當分割任務的目標大小之間存在較大的差異時可以提高小結構的分割精度。
在這裏插入圖片描述
xilx,i和l表示像素位置,預測標籤和地面真實標籤。 DiD_i表示平滑的Dice損失(通過在方程式10中的分子和分母上加上ϵ=1\epsilon= 1項來處理訓練時缺失標籤的位置),而γDγDγCEγCE分別用於控制各自的非線性損失函數。

4.4.4 LovaˊszLov\acute{a}sz-Softmax loss

  • 結合Lovasz hinge 和Jaccard loss 解決2值圖片的分割問題
  • 提出了Lovasz-Softmax loss 對多個類別分割的參數設置
  • 參考:https://blog.csdn.net/Hibercraft/article/details/85807808

4.4.5 Boundary Loss

參考:https://zhuanlan.zhihu.com/p/72783363

4.4.6 總結

  其他工作還包括優化分割度量的方法[104],加權損失函數[120]以及向損失函數添加正則化以編碼幾何和拓撲形狀先驗[9,92]。

  圖像分割(尤其是醫學圖像)中的一個重要問題是要克服類別不平衡問題,對於此類不平衡問題,基於重疊度量的方法在克服不平衡方面已顯示出相當好的性能。

  在圖11中,我們可視化了用於分割大型和小型對象的不同損失函數的行爲。對於損失函數的參數,我們使用與作者在各自論文中所報告的參數相同的參數。對於每個圖,從左到右移動,預測和真值掩碼的重疊逐漸變小,即產生更多的假陽性和假陰性。理想情況下,損耗值應隨着更多的假陽性和預測陰性而單調增加。對於大型對象,幾乎所有功能都遵循此假設;但是,對於較小的對象(右圖),只有Combo Loss和Focal loss會因較大的誤差而單調懲罰更多。換句話說,在分割大小對象時,基於重疊的函數會高度波動(另請參見圖12),這會導致優化不穩定。使用交叉熵作爲基礎的損失函數和重疊度量作爲加權正則函數的損失函數在訓練過程中顯示出更高的穩定性。
在這裏插入圖片描述

5. 醫學影像領域針對優化函數的改進

  如第4節所述,標準CE損失函數及其加權版本已應用於衆多醫學圖像分割問題[56、77、80、101、102、105、124]。 但是,Miletari等 [91]發現在某些情況下,例如,在大背景中具有非常小的前景對象的情況下,DL效果要好於原始的交叉熵。

5.1 正則交叉熵

  Li等[79]提出將以下正則化項添加到交叉熵損失函數中,以產生平滑的分割輸出。
在這裏插入圖片描述
其中ξ\xi^{'}ξ\xi是應用於輸入圖像xix_i的不同擾動(例如,高斯噪聲,網絡dropout和隨機數據轉換)。

5.2 輪廓能量最小化

  徐等[24]提出通過以下損失函數將傳統的主動輪廓能量最小化利用到卷積神經網絡中。
在這裏插入圖片描述
在這裏插入圖片描述
其中,uxi,ju_{x_{i, j}}uyi,ju_{y_{i, j}}中的xxyy代表水平和豎直方向。
在這裏插入圖片描述
其中uuvv分別表示爲預測圖像和給定圖像。 c1c1設置爲1,c2c2設置爲0。與Li等人[79],Zhou等人[178]相似,建議將輪廓迴歸項添加到加權交叉熵損失函數中。

5.3 Hausdorff距離

  Karimi等[62]改進的介於預測和地面真實分割之間的Hausdorff距離函數如下:
在這裏插入圖片描述
其中第二項是dice loss函數,而第一項可以用p和q的Hausdorff距離的三個不同版本(以下僅列出第一個版本,具體參照原文)代替,p,q分別是地面實況和預測,如下所示;
在這裏插入圖片描述

6. 基於圖像合成的方法應用於醫學圖像分割

7. 弱監督方法

8. 多任務模型

9. 在自然圖像上測試的主要模型的總結

在這裏插入圖片描述

10. 未來改進方向

10.1 網絡架構

  根據最新方法,具有長跳層連接和短跳層連接的編碼器-解碼器網絡是成功的體系結構。深層網絡中的跳層連接通過促進對深層網絡體系結構的訓練降低了梯度消失的風險,提高了分割和分類性能。它們爲類似編碼器/解碼器的網絡配備了更豐富的特徵表示,但以更高的內存使用量、計算量爲代價。與Taghanaki等人的方法[136]相似,未來的工作方向是優化通過跳層連接傳輸的數據量。至於單元級架構設計,我們的研究表明,帶有特徵金字塔池模塊的Atrous卷積在最近的模型中得到了廣泛使用。這些方法在某種程度上是對經典卷積塊的修改。與[90,134]中的徑向基函數層類似,未來的工作重點可以是設計新層,以捕獲數據其他方面的特徵相比於卷積操作,或者使得卷積特徵更加多樣化。

10.2 損失函數

  在醫學圖像分割工作中,研究人員已趨向於使用經典的交叉熵損失函數以及基於距離或重疊的函數。如[139]所示,當網絡中僅使用基於距離或基於重疊的損失函數,並且最後一層應用Sigmoid函數時,梯度消失的風險會增加。但是,對於相同的情況,交叉熵損失返回合理的分數。除了使用基於交叉熵的綜合損失函數之外,**未來的工作還可以探討遵循交叉熵行爲的單個損失函數,同時提供更多功能,例如捕獲輪廓距離。**這可以通過重新考慮基於距離和重疊的當前損失函數來實現。另一個未來的途徑是探索類似於上述神經體系結構搜索的自動損失函數(或正則項)搜索。

10.3 其他潛在方向

  • 通過整合先驗知識,超越基於像素強度的場景理解。顯式增強先驗信息。
  • 研究使用非醫學預訓練模型進行醫學圖像分割的風險。
  • 創建大型2D和3D可公開獲得的醫療基準數據集以進行語義圖像分割,例如“醫療分割十項全能” [127]。這將使研究人員能夠準確地比較建議的方法,並針對特定的數據集/問題進行逐步改進。
  • 探索類似於[130,151]的強化學習方法,以進行語義(醫學)圖像分割,以模仿人類進行描繪的方式。深度CNN可以成功提取不同類別的對象的特徵,但它們會丟失對象邊界應在何處的局部空間信息。一些研究人員尋求傳統的計算機視覺方法來克服此問題,例如條件隨機場(CRF),但是CRF爲模型增加了更多的計算時間。
  • 使用圖像級標籤進行弱監督分割。
  • 修改輸入而不是模型,損失函數,並添加更多訓練數據。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章