《U-Net: Convolutional Networks for Biomedical Image Segmentation》閱讀筆記

一、摘要

下載《https://arxiv.org/pdf/1505.04597.pdf

       人們普遍認爲,成功的深層網絡培訓需要數千個帶註釋的培訓樣本。在本文中,我們提出了一種網絡和培訓策略,它依賴於

數據增強的強大使用來更有效地使用可用的帶註釋的樣本。該體系結構由捕獲上下文的收縮路徑和支持精確本地化的對稱擴展路

徑組成。In this paper, we present a network and training strategy that relies on the strong  use of data augmentation to use the

available  annotated samples more   efficiently. The architecture consists of a contracting path to capture context and a symmetric   expanding path that enables precise localization.

然後說參加比賽,贏得了比賽,證明了效果比較好

二、引言

(這一部分主要:在過去卷積神經網絡的限制——可用訓練集和網絡大小。然後說Krizocsky訓練了一個大型網絡。但是針對與醫學圖像無法獲得大量的訓練圖像。Cesresan等人在滑動窗口設置中對網絡進行訓練,該模型的優點與缺點。終於提出了作者的方法,是基於FCN的修改與延申)

          在過去的兩年中(文章是2015年),雖然卷積神經網絡已經存在很長時間了,但受到可用訓練集和所考慮的網絡的的大

小,成功收到限制。Krizovsky等的突破是由於在ImageNet數據集上有一百萬個訓練圖像,對一個具有8層和數百萬參數的大型網

絡進行監督訓練。卷積網絡的典型用途是分類任務,其中圖像的輸出是單個類別標籤。然而,在許多視覺任務中,尤其是在生物

醫學圖像處理中,期望的輸出應該包括定位,即,應該將類別標籤分配給每個像素。而且,在生物醫學任務中通常無法獲得數以

千計的訓練圖像。       

          因此,Cesresan等人在滑動窗口設置中對網絡進行了訓練,預測每個像素的類標籤,以提供圍繞該像素的局部區域(patch)

作爲輸入。優點:首先,這個網絡可以局部化。其次,補丁方面的訓練數據遠大於訓練圖像的數量。缺點:首先,它非常慢,因

爲網絡必須分別爲每個補丁運行,並且由於補丁重疊而導致大量冗餘。其次,在局部化準確性和內容的使用之間存在着權衡關

系。較大的patches需要更多的最大池化層來降低局部化的準確性,而較小的pathes則使網絡只能看到很少的內容。

         在本文中,我們基於FCN的基礎上建立一個更完美的一個結構,我們修改和擴展了這個體系結構,使它能夠以很少的訓練

圖像工作,產生更精確的分割。主要思想是用連續層來補充通常的收縮網絡,其中池化操作被上採樣算子取代。因此,這些層提

高了輸出的分辨率。爲了定位,收縮路徑中的高分辨率特徵與上採樣輸出結合在一起。然後,連續卷積層可以學習根據這些信息

組裝更精確的輸出。

         我們的架構的一個重要修改是,在上採樣部分,我們也有大量的特徵通道,這使得網絡能夠將上下文信息傳播到更高分辨率

的層。其結果是,擴展路徑與收縮路徑或多或少對稱,併產生u形結構。該網絡沒有任何完全連接的層,只使用每個卷積的有效

部分,即分割映射只包含輸入圖像中可用的全部內容的像素。該策略允許通過重疊塊策略對任意大的圖像進行無縫分割(見圖

2)。要預測圖像邊框區域中的像素,需要通過鏡像輸入映像來推斷丟失的內容。

        對於我們的任務,可用的訓練數據很少,我們通過對可用的訓練圖像施加彈性變形來進行過度的數據增強。這允許網絡學習

這種變形的不變性,而無需在帶註釋的圖像語料庫中看到這些轉換。這在生物醫學分割中尤爲重要,因爲變形曾經是組織中最常

見的變化,可以有效地模擬真實變形。數據增強在學習不變性方面的價值已在dosovitskiy等人中得到了證明。[2]在無監督特徵學

習的範圍內。

        在許多細胞分割任務中的另一個挑戰是分離同一類的觸摸對象;參見圖3.爲此,我們建議使用加權損失,其中觸摸細胞之間

的分離背景標籤在損失函數中獲得較大的權重..

三、網絡結構

        網絡體系結構圖所示,它由收縮路徑(左側)和擴展路徑(右側)組成。收縮路徑遵循卷積網絡的典型結構。它包括重複應

用兩個3x3卷積(非加量卷積),每個卷積後面是一個校正的線性單元(Relu)和一個2x2最大池操作,步長爲2進行下采樣。在

每個下采樣步驟中,我們將特徵通道的數量增加一倍。擴展路徑中的每一步都包括一個特徵映射的上採樣,然後是一個2x2卷積

(上卷積),它將特徵通道的數量減半,與收縮路徑中相應裁剪的特徵映射連接,以及兩個3x3卷積,每個卷積後面跟着一個relu。

由於每個卷積中的邊界像素的丟失,需要裁剪。在最後一層,使用1x1卷積來將每個64分量特徵向量映射到所需數量的類。總共

該網絡具有23個卷積層。爲了允許輸出分段映射的無縫拼接(請參見圖2),重要的是選擇輸入塊大小,以便將所有2x2max池操作

應用到具有均勻x和y大小的層。

四、訓練

利用Caffe[6]的隨機梯度下降實現,利用輸入圖像及其相應的分割映射對網絡進行訓練。由於非填充卷積,輸出圖像比輸入圖像小

一個恆定的邊框寬度。爲了最小化開銷並最大限度地利用GPU內存,我們傾向於大輸入塊而不是大批處理大小,從而將批處理減

少爲單個映像。因此,我們使用較高的動量(0.99),使得先前看到的大量訓練樣本決定當前優化步驟中的更新。

能量函數由最終特徵圖上的像素級極大值與交叉熵損失函數相結合計算。

 

 

我們預先計算每個真實分割的權重圖,以補償訓練數據集中某一類像素的不同頻率,並迫使網絡學習我們在單元格之間引入的小分離邊界。分離邊界用形態運算計算。權重圖計算爲

        在具有多個卷積層和不同路徑的深層網絡中,良好的權值初始化是非常重要的。否則,網絡的某些部分可能會提供過多的激

活、而其他部分則不會做出貢獻。理想情況下,初始權重應該調整,使網絡中的每個特徵映射具有近似的單位方差。對於具有

我們的體系結構的網絡(交替卷積和ReLU層),這可以通過從標準偏差的高斯分佈中提取初始權值來實現,其中N表示一

個神經元的傳入節點數。例如,對於前一層中的3x3卷積和64個特徵信道,N=9·64=576。

        尤其是訓練樣本的隨機彈性變形似乎是訓練具有很少帶註釋圖像的分割網絡的關鍵概念。我們利用3個網格上的粗糙3上的隨

機位移矢量來生成平滑變形。從具有10個像素標準偏差的高斯分佈對位移進行採樣。然後使用雙三次插值計算每像素位移。收縮

路徑末端的引出層執行其他隱式數據。

五、實驗

六、總結

         U-Net體系結構在非常不同的生物醫學分割應用中實現了非常好的性能。由於具有彈性變形的數據增強,它只需要非常少的

帶註釋的圖像,並且在NVIDIATanGPU(6GB)上只需要10小時的合理的訓練時間。我們提供了完整的CAFFE[6]的實施和培訓的網

絡。我們相信,可以輕鬆地將U-Net體系結構應用到更多的任務。

(記錄成長,總結知識,及時回顧)

 


 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章