圖像語義分割概述

圖像語義分割

一、圖像語義分割含義及原理

含義:對分割後的圖像加上語義標籤(用不同的顏色代表不同類別的物體),就是給分割後圖像中的每一類物體加上標籤,輸入一般是彩色深度(RGB-D)圖像。


要求

(1)分割得到的不同區域內部平整,其紋理和灰度有相似性;

(2)相鄰語義分割區域對分割所依據的性質有明顯的差異;

(3)分割後不同語義區域的邊界有明確且規整。

二、DL(deep learning)時代的語義分割方法

1、全卷積神經網絡(FCN)

 FCN基本原理

       可用來分類的神經網絡最後幾層均是全連接層,會將輸入的二維圖像壓縮至一維,即最後的分類結果。圖像語義分割要求輸出是二維圖像,所以我們需要將全連接層換成全卷積層(卷積核大小爲輸入特徵圖大小),即全卷積網絡。

 FCN的特點

1)卷積化(convolutional)

FCN直接進行像素級別的端到端的語義分割,以VGG 16爲例,將傳統的全連接層fc6和fc7均替換成卷積層,fc8替換成21通道(PASCAL VOC數據包含21個類別:20個對象類和一個背景類)的卷積層,作爲網絡最終輸出,這樣,網絡的輸入和輸出均是二維圖像。

2)上採樣(upsample)

在池化過程中,下采樣會使圖片不斷縮小,使得圖片中的像素點不能恢復到原圖,給像素級別的訓練帶來困擾。需要對特徵圖進行上採樣(upsample),即反捲積(Deconvolution),FCN中用雙線性插值將特徵圖上採樣到原圖大小。

下采樣倍數不同將導致語義分割結果的精細程度不同,下采樣倍數越高,上採樣還原後得到的分割結果越粗略,因爲較淺的(靠前的)卷積層的感受域較小,學習感知細節部分的能力比較強,而較深的(靠後的)卷積層感受域比較大,適合學習較爲整體的、宏觀的特徵,所以在較深的卷積層上進行反捲積還原,會損失很多細節特徵,導致分割結果很粗糙。


所以,在進行反捲積時,會採用一部分較淺層的反捲積信息輔助疊加,來優化結果輸出。

3)跳躍層(skip layer)

這個結構的作用就在於優化結果,因爲如果將全卷積之後的結果直接上採樣得到的結果是很粗糙的,所以FCN將不同池化層的結果進行上採樣之後來優化輸出。具體結構如下:


2、條件隨機場和馬爾科夫隨機場(CRF和MRF)

條件隨機場

將圖像中的每個像素點的類別都看作一個變量,考慮任意兩個變量之間的關係,建立一個完全圖。就是將像素點之間的語義關係考慮進去,鼓勵相似的像素分配相同的標籤,通過對CRF能量函數進行優化求解,來對FCN圖像語義分割預測結果進行優化,得到最終分割結果。

全連接條件隨機場(Dense CRF)

爲了取得更好的分割結果,研究人員將CRF嵌入到FCN中,就形成了全連接的條件隨機場(Dense CRF),可以提高網絡模型捕獲圖像細節的能力,CRF最後預測結果的能量函數可以直接用來指導FCN模型參數的訓練。

 CRF as RNN

最開始的Dense CRF中的CRF直接加在FCN後面,比較粗糙,在深度學習中,我們都追求端到端的系統,CRF as RNN採用平均場近似的方法,將CRF真正結合到FCN中,使用相乘相加的計算,將每一步都描述成一層類似卷積的計算。這樣既可以將CRF結合進神經網絡中,使前向傳播和後向傳播不存在問題,還可以進行迭代,不同的迭代次數得到結果的優化程度也不同(一般迭代取10次以內)。


MRF

MRF模型認爲圖像中某一點的特徵(一般是像素點的灰度值等信息)只與其附近的一小塊區域有關,而與其他區域無關。這是一種基於統計的圖像分割算法,模型參數比較少,空間約束力強,使用較爲廣泛。

3、空洞卷積(Atrous Convolutions)

在不降低空間維度的前提下,增大了相應的感受域,可以改善分割網絡。由於FCN的上採樣並不能將丟失的信息全部無損的找回來,所以要採用空洞卷積。池化層的下采樣會帶來信息損失,但去掉池化層會使網絡的感受域變小,降低模型的預測精度,而空洞卷積可以去掉池化層的同時不降低網絡的感受域,就是採用一個更加稀疏的卷積核來取代池化,在卷積核模板相同的情況下,每進行一次卷積都得到更多的特徵圖信息。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章