綜述論文:深度學習在心臟圖像分割的應用

作者:
Chen Chen [1], Chen Qin [1], Huaqi Qiu [1],∗, Giacomo Tarroni [1,2], Jinming Duan [3],Wenjia Bai [4,5], and Daniel Rueckert [1]

[1] Biomedical Image Analysis Group, Department of Computing, Imperial College London, London, UK;
[2] Department of Computer Science, City, University of London, London, UK;
[3] School of Computer Science, University of Birmingham, Birmingham, UK;
[4]. Data Science Institute, Imperial College London, London, UK;
[5] Division of Brain Sciences, Department of Medicine, Imperial College London

概述

近年來,深度學習已成爲用於心臟圖像分割的最廣泛使用的方法。 在本文中,我們通過深度學習對100多種心臟圖像分割論文進行了綜述,涵蓋了常見的成像方式,包括磁共振成像(MRI),計算機斷層掃描(CT)和超聲(US)以及該領域關注的主要解剖結構( 心室,心房和血管)。 此外爲給可重複的研究提供基礎還提供了包括公開可獲得的心臟圖像數據集和代碼庫。 最後我們討論了當前基於深度學習的方法所面臨的挑戰和侷限性(標籤的稀缺性,模型在不同領域的通用性,可解釋性),並提出了未來研究的潛在方向。

介紹

根據世界衛生組織(WHO),心血管疾病(CVD)是全球主要的死亡原因。 2016年,約有1790萬人死於心血管疾病,主要死於心臟病和中風[1]。 這個數字還在逐年增加。 近幾十年來,心血管研究和實踐取得了重大進展,旨在改善心臟病的診斷和治療以及降低CVD的死亡率。 如今,磁共振成像(MRI),計算機斷層掃描(CT)和超聲(US)等現代醫學成像技術已得到廣泛使用,這些技術可對心臟解剖結構和功能進行無創定性和定量評估,併爲診斷、疾病監測、制定治療計劃和康復預測提供支持。
心臟結構和檢測技術
特別令人感興趣的是,心臟圖像分割是許多應用中重要的第一步。 它將圖像劃分爲多個解剖學上有意義的區域,基於這些區域可以提取定量度量,例如心肌質量,壁厚,左心室(LV)和右心室(RV)的體積以及射血 通常,用於心臟圖像分割的感興趣的解剖結構包括LV,RV,左心房(LA),右心房(RA)和冠狀動脈。 圖1概述了與心臟圖像分割有關的典型任務,其中顯示了三種最常用的模式(即MRI,CT和US)的應用。

在深度學習興起之前,傳統的機器學習技術如模型方法(例如ASM和APM)和圖集方法在心臟圖像分割中的有良好表現(Petitjean 2015;Peng 2016;Tavakoli和Amini 2013;Lesage 2009)。但是,它們通常需要大量的特徵工程知識或先驗知識才能獲得令人滿意的精度。相反基於深度學習(DL)的算法擅長從數據中自動發現複雜的特徵以進行對象檢測和分割。使用通用學習過程並以端到端的方式直接從數據集中學習這些特徵。這使得基於DL的算法易於應用於其他圖像分析應用程序。得益於先進的計算機硬件(例如圖形處理單元(GPU)和張量處理單元(TPU))以及可用於訓練的更多可用數據,基於DL的分割算法已逐漸超越了以往的傳統方法,在研究中越來越受歡迎。在圖2A中可以觀察到這種趨勢,該圖顯示了用於心臟圖像分割的基於DL的論文的數量在最近幾年中已大大增加。值得一提的是MR圖像分割的文章數量明顯高於其他兩個領域的出版物數量,這種情形在2017年尤爲明顯。在圖2B中可以觀察到的一個原因是,MR分割的公開可用數據自2016年以來有顯著增長。

心臟圖像論文趨勢

在本文中,我們概述了臨牀實踐中三種最常用的方式(即MRI,CT,US)中用於心臟圖像分割的最新深度學習技術,並討論了當前技術的優點和深度學習方法尚存的侷限性,這些不足阻礙技術廣泛地臨牀部署。據我們所知,已有幾篇評論文章概述了基於DL的方法的應用於一般醫學圖像分析(Greenspan 2016; Shen 2017; Litjens 2017),以及一些專門針對心血管圖像分析而設計的調查(Gandhi 2018; Mazurowski 2019)。但是它們都沒有提供針對心臟分割應用的系統概述。這篇綜述文章旨在提供從深度學習算法的出現到最新技術,重點是各種心臟圖像分割任務(例如LV,RV和血管分割)的全面概述。特別是我們的目標是覆蓋直到2019年8月1日爲止該領域中最有影響力的深度學習相關文章並根據特定方式對這些文獻進行分類。此外除了第2節中介紹的深度學習基礎之外,我們還提供了公共數據集(請參見表6)和公共代碼(請參見表7)的摘要,旨在爲新手提供良好的閱讀基礎。主題並鼓勵未來的貢獻。更重要的是,我們提供了有關當前研究狀況(第3.4節)以及未來工作的挑戰和潛在方向(第4節)的深入討論。

搜索標準:爲確定相關貢獻查詢了Scopus和PubMed之類的搜索引擎以查找標題或摘要中包含(“卷積”或“深度學習”),(“心臟”)和(“圖像分割”)的論文。 此外根據論文標題搜索了MICCAI,ISBI和EMBC的會議記錄。最後排除了主要關注點不在圖像分割問題的論文。 收錄論文的最新更新是在2019年8月1日。

深度學習基礎

深度學習模型是深度人工神經網絡。 每個神經網絡由一個輸入層,一個輸出層和多個隱藏層組成。 在以下部分中,我們將回顧幾種先進的分割算法中常用的深度學習網絡和關鍵技術。 有關深度學習的數學背景和基礎知識的更詳細和透徹的說明,請感興趣的讀者參考Goodfellow(2016)。

2.1 神經網絡

在本節中,我們首先介紹基本的神經網絡架構,然後簡要介紹構建模塊,這些構建模塊通常用於增強網絡學習對圖像分割有用的能力。

2.1.1 卷積神經網絡

在這一部分中,我們將介紹卷積神經網絡(CNN),這是用於圖像分析的最常見的深度神經網絡類型。 CNN已成功應用於許多圖像分類,目標檢測和分割任務的最新技術發展。

CNN模型示例圖

如圖3A所示,標準CNN由輸入層、輸出層和功能層的堆棧組成,它們之間以特定形式(例如向量)將輸入轉換爲輸出。這些功能層通常包含卷積層,池化層和全連接層。通常每個卷積核是一個n×nn×n的核(用於2D輸入)或n×n×nn×n×n核(用於3D輸入),之後將輸出傳遞給非線性激活函數(例如ReLU)再輔以批歸一化(Ioffe和Szegedy,2015),這樣就從圖像中提取特徵圖。然後這些特徵圖將通過池化層(通常是2倍)進行下采樣消除了多餘的特徵,提高統計效率和模型概括性。其後通過全連接層減小特徵維度並找到與任務最相關的特徵以進行推理。網絡的輸出是固定大小的向量,其中每個元素可以是每個類別的概率得分(用於圖像分類),迴歸任務的實際值(例如左心室容積估計)或一組值(例如用於物體檢測和定位的邊界框的座標)。

通常,將卷積核n的大小選擇爲通常較小,例如n=3n = 3,以減少計算成本。 儘管核很小,但可以通過增加捲積層的數量來增加接收場(可能影響特定卷積核/神經元激活的輸入圖像區域)。 例如,具有7×7內核大的卷積層可以由具有3×3內核小的三層替換。 參數數量減少了72/(3×(32))27^2 / (3×(3^2))≈2,而接收場保持不變(7×7)(7×7)。 這裏引用了在線資源[2],該資源[2]通過更改隱藏層的數量和內核的大小來說明並可視化接收場的變化。 通常,增加捲積神經網絡的深度(隱藏層的數量)以擴大接收場可以導致模型性能的提高,例如分類準確性(Simonyan and Zisserman,2015)。

如圖3B所示,用於圖像分類的CNN也可用於圖像分割應用,而無需對網絡體系結構進行重大改動(Ciresan和Giusti,2012年)。但是,這需要將每個圖像劃分爲小塊,然後訓練CNN以預測每個小塊的中心像素的類標籤。這種基於圖塊的方法的主要缺點是,儘管存在由於映像中多個補丁重疊而導致大量冗餘的事實,但在推理時仍必須爲每個補丁單獨部署網絡。由於效率低下,具有完全連接層的CNN的主要應用是對象定位,目的是估計圖像中感興趣對象的邊界框。該邊界框然後用於裁剪圖像,形成圖像預處理步驟以減少分割的計算成本(Avendi等,2016)。爲了進行有效的端到端像素級分割,將更廣泛地使用稱爲全卷積神經網絡(FCN)的CNN變體,這將在下一部分中進行討論。

2.1.2 全卷積神經網絡

FCN的想法最早由Long, 2015提出用於圖像分割。 FCN是一種特殊的CNN,沒有任何完全連接的層。 通常如圖4A所示,FCN設計爲具有編碼器/解碼器結構,以便它們可以接收任意大小的輸入並生成相同大小的輸出。 給定輸入圖像,編碼器首先將輸入轉換爲高級特徵表示,而解碼器解釋特徵圖,並通過一系列轉置的卷積和卷積操作將空間細節恢復回圖像空間,以進行像素級預測。 這裏,轉置的卷積通常用於將特徵圖按比例放大2倍。這些轉置的卷積也可以由解池層和上採樣層代替。 與用於分割的基於補丁的CNN相比,FCN經過訓練並應用於整個圖像,從而無需選擇圖塊(Shelhamer 2017)。

在這裏插入圖片描述

具有圖4A中簡單編碼器-解碼器結構的FCN可能會被限制爲精確分割圖像而捕獲圖像中的詳細上下文信息,因爲某些特徵可能會被合併消除
編碼器中的圖層。爲了提高分割精度,已經提出了FCN的幾種變體,以將特徵從編碼器傳播到解碼器。用於生物醫學圖像分割的FCN最著名和​​最受歡迎的變體是U-net(Ronneberger和Brox,2015)。基於香草FCN(Long等人,2015),U-net在編碼器和解碼器之間採用跳過連接來恢復下采樣路徑中的空間上下文損失,從而產生更精確的分段(見圖4B)。幾種最先進的心臟圖像分割方法都採用了U-net或其3D變體,3D Unet(C¸ic¸ek等人,2016)和3D V-net(Milletari等人, 2016年)作爲其骨幹網絡,在許多心臟分割任務中實現了有希望的分割精度(Tao等人,2019年; Isensee等人,2017年; Xia等人,2018年)。

將U-net或其3D變體3D Unet(C¸ic¸ek等,2016)和3D V-net(Milletari等,2016)作爲骨幹網,實現了有希望的分割精度 許多心臟分割任務(Tao等人,2019; Isensee等人,2017; Xia等人,2018)。

2.1.3 循環神經網絡

在這裏插入圖片描述

遞歸神經網絡(RNN)是另一種類型的人工神經網絡,用於順序數據,例如電影MRI和超聲圖像序列。 RNN可以“記住”過去,並使用從過去學到的知識來做出當前的決定,請參見圖5。例如,給定一系列圖像,RNN會以第一幅圖像作爲輸入,捕獲信息以做出決定。 預測,然後存儲此信息,然後將其用於對下一幅圖像進行預測。 RNN系列中使用最廣泛的兩種架構是LSTM(Hochreiter和Schmidhuber,1997)和門控循環單元(GRU)(Cho等人,2014),它們能夠對長期記憶進行建模。 心臟分割的一個用例是將RNN與2D FCN組合在一起,以便組合後的網絡能夠從相鄰切片中捕獲信息以改善分割結果的切片間一致性(Poudel等人,2016)。

2.1.4 自編碼器

在這裏插入圖片描述

自動編碼器(AE)是一種神經網絡,旨在從數據中學習緊湊的潛在表示而無需監督。 自動編碼器的典型體系結構由兩個網絡組成:用於重構輸入的編碼器網絡和解碼器網絡,請參見圖6。由於學習到的表示形式通常包含原始數據中的有用信息,因此許多研究人員已採用自動編碼器來提取 一般語義特徵或來自輸入圖像或標籤的形狀信息,然後使用這些特徵指導心臟圖像分割(Oktay等人,2016; Schlemper等人,2018; Yue等人,2019)。

2.1.5 生成對抗網絡

在這裏插入圖片描述

生成對抗網絡(GAN)的概念由Goodfellow等提出。 (2014)進行噪聲圖像合成。 GAN是一類生成模型,可學習對真實數據的數據分佈進行建模,從而能夠創建新的圖像示例。如圖7A所示,GAN由兩個網絡組成:生成器網絡和鑑別器網絡。在訓練過程中,兩個網絡都經過了相互競爭的訓練:生成器生成旨在欺騙鑑別器的僞圖像,而鑑別器則試圖從僞圖像中識別真實圖像。這種訓練稱爲“對抗訓練”,因爲這兩種模式都旨在贏得比賽。該訓練方案也可以用於訓練分割網絡。如圖7B所示,將生成器替換爲分段網絡,並要求鑑別器將生成的分段圖與地面真實地圖(目標分段圖)區分開。通過這種方式,鼓勵分割網絡生成更多解剖學上合理的分割圖(Luc等人,2016; Savioli等人,2018)。

2.1.6 先進的構建模塊可改善細分

在這裏插入圖片描述
醫學圖像分割是定量分析和臨牀研究的重要步驟,需要逐像素精度。 在過去的幾年中,許多研究人員已經開發出高級的構建基塊,以學習魯棒的,具有代表性的特徵以進行精確的分割。 這些技術已廣泛應用於最新的神經網絡(例如U-net),以改善心臟圖像分割性能。 因此,我們確定了爲此目的在文獻中報道的幾種重要技術,併爲它們提供了相應的參考資料以供進一步閱讀。 這些技術是:

  1. 用於隱藏層中多尺度特徵聚合的高級卷積模塊:
    • 初始模塊(Szegedy等,2015),見圖8A;
    • 擴展的卷積核(Yu和Koltun,2016年);
    • 深度監督(Lee等人,2015);
    • 多孔空間金字塔池化(Chen等,2017);
  2. 自適應卷積內核旨在關注以下重要特徵:
    • 注意單位(Vaswani等,2017),見圖8B;
    • 擠壓和激勵塊(Hu等,2018);
  3. 層間連接旨在重用先前層中的功能:
    • 殘餘連接(He等,2016),見圖8C;
    • 緊密的聯繫(Huang等,2017)。

2.2 訓練神經網絡

在能夠進行推理之前,必須訓練神經網絡。 此訓練過程需要一個包含成對的圖像和用於訓練和測試的標籤{x,y}的數據集,一個優化器(例如,隨機梯度下降,Adam)和一個損失函數來更新模型參數。 此功能解決了訓練期間每次迭代中網絡預測的錯誤,從而爲優化器提供了通過反向傳播更新網絡參數的信號。 培訓的目標是找到適當的價值
網絡參數以最小化損耗功能。

2.2.1 通用損失函數

對於迴歸任務(例如心臟定位,鈣評分,界標檢測,圖像重建),最簡單的損失函數是均方誤差(MSE):

其中y ^ i是目標值的向量,yˆi是預測值的向量; n是數據樣本數。

交叉熵是圖像分類和分割任務中最常見的損失。 特別是,對於每個類別c,用於分割的交叉熵損失總結了預測概率輸出p及其對應的目標分割圖y之間的逐像素概率誤差:

交叉熵是圖像分類和分割任務中最常見的損失。 特別是對於每個類別c,用於分割的交叉熵損失總結了預測概率輸出p及其對應的目標分割圖y之間的逐像素概率誤差:

其中C是所有類別的數目。 專爲對象分割而設計的另一個損失函數稱爲soft-Dice損失函數(Milletari等人,2016),它在像素級別上懲罰了預測的分割圖與其目標圖之間的不匹配:

此外,交叉熵或軟骰子損失有多種變體,例如加權交叉熵損失(Jang 2017; Baumgartner 2017)和加權軟骰子損失(Yang 2017c; Khened 2019),用於解決醫學圖像分割任務中潛在的類別不平衡問題,其中損失項被加權以考慮稀有類別或小物體。

2.2.2 減少過擬合

訓練深層網絡進行醫學圖像分析的最大挑戰是過度擬合,這是因爲與深層網絡中可學習的參數數量相比,訓練圖像的數量通常有限。 已經開發出許多技術來減輕該問題。 其中一些技術如下:

  • 權重初始化(He等,2015)和權重正則化(即L1 / L2正則化)
  • 輟學(Srivastava等,2014)
  • 合奏學習(Kamnitsas等,2017a)
  • 通過仿射變換人工生成訓練樣本來增強數據
  • 通過對現有大型數據集進行預訓練的模型進行轉移學習

爲了定量評估自動分割算法的性能,通常使用三種類型的指標:a)基於體積的指標(例如Dice指標,Jaccard相似性指標); b)基於表面距離的度量(例如平均輪廓距離,Hausdorff距離); c)臨牀表現指標(例如,心室容積和質量)。 有關心臟圖像分析中常用臨牀指標的詳細說明,我們建議使用Peng等人的綜述文章。 (2016)。 在本文中,我們主要根據Dice指標報告方法的準確性,以便於比較。 Dice分數用於衡量兩個結果之間的重疊率(例如,自動細分與手動細分),範圍從0(不匹配)到1(完全匹配)。

3.深度學習用於心臟圖像分割

在本節中,我們提供了針對三種主要成像方式(基於MRI,CT和US)的基於深度學習的應用程序的摘要,其中涉及針對目標結構的特定應用程序。通常,這些基於深度學習的方法提供了一種有效且有效的方式,可以以不同的方式分割特定的器官或組織(例如LV,冠狀動脈,疤痕),從而有助於對心血管結構和功能進行後續定量分析。在這些工作中,這些方法的很大一部分是針對心室分割而設計的,尤其是在MR和US域。心室分割的目的是描繪左室和/或右室的心內膜和心外膜。這些分割圖對於得出臨牀指標很重要,例如左心室舒張末期容積(LVEDV),左心室舒張末期容積(LVESV),右心室舒張末期容積(RVEDV),右心室舒張末期容積(RVESV)和EF。此外,這些分割圖對於3D形狀分析(Xue 2018; Biffi 2018),3D +時間運動分析(Zheng 2019)和生存預測(Bello 2019)。

3.1 心臟MR圖像分析

心臟MRI是一種非侵入性成像技術,可以可視化心臟內部和周圍的結構。 與CT相比,它不需要電離輻射。 相反,它依靠磁場和射頻波來激發心臟中的氫核,然後通過測量其響應來生成圖像。 通過利用不同的成像序列,心臟MRI可以準確量化心臟的解剖結構和功能(例如電影成像)以及諸如疤痕的病理組織(晚期late增強(LGE)成像)。 因此,心臟MRI目前被認爲是定量心臟分析的金標準(Van Der Geest and Reiber,1999)。

表1中顯示了一組基於深度學習的代表性MR分割方法。從表中可以看出,大多數工作都集中在分割心腔(例如LV,RV,LA)上。 相反,分割異常心臟組織區域(如心肌疤痕和心房纖維化)的工作相對較少。 這可能是由於相關的公共數據集有限以及任務困難。 此外,就我們所知,很少有將深度學習技術應用於心房壁分割的工作,正如最近的一項調查論文所建議的那樣(Karim等人,2018)。 在以下各節中,我們將詳細描述和討論有關不同應用程序的這些方法。

3.1.1 心室分割

基於普通FCN的分割技術:Tran(2016)是最早應用FCN的分割技術(Shelhamer 2017),可在短軸心臟磁共振(MR)圖像上直接分割左心室,心肌和右心室。他們基於FCN的端到端方法實現了有競爭力的分割效果,在速度和準確性方面均大大優於傳統方法。在接下來的幾年中,已經提出了許多基於FCN的工作,旨在進一步提高分割效果。在這方面,一項工作流專注於優化網絡結構以增強用於分割的特徵學習能力(Khened,2019; Li,2019b; Zhou和Yang,2019; Zhang, 2019a; Cong和Zhang,2018; Jang,2017; Fahmy,2019)。例如,Khened(2019)開發了一個具有初始模塊的密集U-net,以結合多尺度特徵以在具有較大解剖變異性的圖像之間進行魯棒分割。 Jang (2017);楊(2017c);桑德(2019); Chen(2019e)研究了不同的損失函數,例如加權交叉熵、加權Dice損失、深度監督損失和焦點損失,以提高分割性能。在這些基於FCN的方法中,大多數方法使用2D網絡而不是3D網絡進行分割。這主要是由於大多數心臟MR掃描的典型低通板分辨率和運動僞影,這限制了3D網絡的適用性(Baumgartner,2017)。

引入空間或時間上下文:使用2D網絡進行心臟分割的一個缺點是這些網絡逐片工作,因此它們不利用任何片間依存關係。 結果,二維網絡可能無法在挑戰性切片(例如心室輪廓未很好定義的頂端和基礎切片)上定位和分割心臟。 爲了解決這個問題,許多工作試圖引入附加的上下文信息來指導2D FCN。 該上下文信息可以包括從標籤或多視圖圖像中獲悉的形狀先驗(Zotti,2017,2019; Chen,2019b)。 其他人則使用循環神經網絡(RNN)或多層切片網絡(2.5D網絡)從相鄰切片中提取空間信息以輔助分割(Poudel,2016; Patravali,2017; Du,2019; Zheng,2018)。這些網絡還可以用於在心動週期的不同時間範圍內利用信息來改善分割結果的時空一致性(Yan,2018; Savioli,2018; Du,2019; Qin,2018a; Wolterink,2017c)。

應用解剖約束:可能會限制2D和3D FCN的分割性能的另一個問題是,它們通常僅使用逐像素損失函數(例如交叉熵或軟骰子損失)進行訓練。 這些基於像素的損失函數可能不足以學習表示基礎解剖結構的特徵。 因此,幾種方法集中於設計和應用解剖學約束來訓練網絡以提高其預測準確性和魯棒性。 這些約束條件表示爲正則化項,其中考慮了拓撲結構(Clough等人,2019),輪廓和區域信息(Chen等人,2019g)或形狀信息(Oktay等人,2018a; Yue等人, 2019),鼓勵網絡生成更多解剖學上合理的分割。 除了在訓練時使網絡正規化,Painchaud等人。 (2019)提出了一種變分AE,以在後期處理階段糾正不準確的細分。

在這裏插入圖片描述
多任務學習:研究人員也在探索使用多任務學習來規範化基於FCN的心室分割,通過在訓練階段執行與主要任務相關的輔助任務例如運動估計(Qin,2018b)、心功能估計(Dangi,2018b),心室大小分類(Zhang,2018b)和圖像重建(Chartsias,2018; Huang,2019)。同時爲多個任務訓練網絡會鼓勵網絡提取對這些任務有用的功能,從而提高學習效率和預測準確性。

多階段網絡:近年來研究人員對在多階段管道中應用神經網絡越來越感興趣,這需要將分割問題分解爲子任務(Vigneault,2018; Zheng,2018; Li,2019a;Tan,2017;Liao,2019)。例如,Zheng(2018)、 Li(2019a)提出了感興趣區域(ROI)本地化網絡後接圖像分割網絡。 同樣Vigneault(2018)提出了一個名爲Omega-Net的網絡,該網絡由用於心室定位的U-net,可標準化圖像方向的可學習轉換模塊以及用於細粒度分割的一系列U-net組成。通過顯式定位ROI並將輸入圖像旋轉爲規範的方向,所提出的方法可以更好地推廣到具有不同大小和方向的圖像。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章