【論文筆記】U-Net模型-用於醫學圖像分割的神經網絡模型

本文主要是對 U-Net 論文中主要內容的提煉,中間加入了一些自己的理解,有些地方自己不是很懂,所以直接採用了直譯的方式。建議大家去閱讀原文。

U-Net 的主要優點是可以用更少的訓練樣本達到更好的效果,並且速度很快,這對於訓練數據較少的醫學圖像處理相關的問題來說是十分重要的。U-Net論文地址:U-Net論文

一、前人工作

文章首先總結了前人工作的一些特點,前人的工作(主要是一些卷積神經網絡模型)有兩大侷限,第一是受制於可利用的訓練樣本不夠多的問題,第二是網絡模型太過複雜而導致的訓練速度較慢。卷積神經網絡模型主要用於分類任務,而對於醫學圖像處理這類分類問題就要求對每個像素進行分類(是前景還是背景),也就是所謂的定位(localization)問題。

後來有人提出了滑動窗口(sliding-window)的方法,也就是每次把當前像素的相鄰像素,即一個窗口作爲輸入。滑動窗口的好處是可以讓網絡實現定位(即對每個像素進行分類),同時每個滑動窗口都相當於一個訓練樣本,這樣增加了可利用的訓練樣本的數量。當然了這種方式也存在着兩個問題,第一是因爲要對不同大小、不同位置的窗口進行遍歷,所以訓練速度會很慢;第二是因爲窗口之間存在重疊,所以有點冗餘了,換句話說,如果想要得到更好的精度,就要增加窗口的數量和大小,而如果要提高訓練速度就就必須減少窗口的數量和大小,這是一對矛盾。

二、U-Net 技術要點

U-Net

U-Net 之所以叫這個名字是因爲其網絡模型的形狀類似於字母 ‘U’ 。U-Net 的結構包括一個收縮路徑(contracting path)和一個擴張路徑(expanding path),前者用來捕獲上下文信息,後者用來精確定位。這兩者又分別可看作是一個編碼器和一個解碼器。

由於重疊平鋪(overlap-tile)策略所以使得模型可以處理任意大小的輸入圖片。由於圖像邊界區域的像素上下文會缺失,所以可以通過對輸入圖像進行鏡像來推斷。

爲了解決訓練數據較少的問題,在該模型中使用了大量的數據增強,比如對已有的訓練圖像進行塑性變形。

U-Net 這篇論文當時是針對於生物醫學圖像進行分割的,可以理解爲對含有很多細胞的圖像進行分割。所以就存在一個同類相鄰物體(比如相鄰的細胞)之間的分割問題,爲此提出了一個加權損失(weighted loss),在相鄰細胞的分割標籤會在損失函數中有個較大的權重。

三、U-Net 網絡結構

前面說過 U-Net 由一個收縮路徑和一個擴張路徑組成,收縮路徑中的基本組成元素是兩個 3×33\times3 的無填充卷積,每個卷積後都跟着一個 ReLU 激活函數,然後是一個 2×22\times2 的步長爲2的最大池化操作,以上步驟重複多次。每個池化操作後通道數就會加倍。擴張路徑與之大體相反,基本元素是一個 2×22\times2 的卷積(up-convolution),拼接上收縮路徑中對應的特徵圖(即跳躍連接),然後是兩個 3×33\times3 的卷積操作,每個卷積後面跟着一個 ReLU 激活函數。以上步驟重複多次,在擴張路徑的最後一層有一個額外的 1×11\times1 的卷積操作,這個卷積的目的是讓輸出映射到想要的大小。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章