原創文章,引用請註明出處:http://blog.csdn.net/tonyyang1995 謝謝!
最近在讀深度學習中深度學習的論文,老闆要寫總結所以順便發上來記錄一下。
Learning Deconvolution Network for Semantic Segmentation 這篇論文主要優化的是傳統反捲積網絡的一些limitation。
傳統FCN 存在的limitation:
1. 它的network pre-defined a fixed size receptive field(這個會導致比這個field 大或者小的object會fragment 或 mislabel,而且比較小的物體可能會被忽略或者被分類成背景)
2. 物體的具體結構可能會消失 因爲輸入的label map 比較粗糙而且deconvolution 的操作比較簡單
所以即使已經使用了CRF 但是效果還是不太好。
爲了解決這些問題:
作者提出了一個深度的反捲積網絡。
這個網絡由多個deconvolution,unpooling,relu組成。
訓練的network 是應用於單獨的object proposal 來獲得instance-wise 分割
在VOC12 的數據集上的表現比其他的FCN-based method 要好。
它的結構圖如下:
從這個圖我們可以看出它的convolution 和deconvolution 是鏡像的。
這裏作者使用了unpooling 操作顧名思義就是把polling的操作反過來,但是因爲pooling的操作不可逆,這個unpooling操作只能把傳進來的特徵按照原來的位置重新擺放,近似pooling 前的卷積特徵。
deconvolution
這裏parameter 是可以學習的。
在論文中,作者對於deep deconvolution network 的分析後發現: 越complex 的能夠capture更多的細節。
從上圖中我們可以發現越深的Deconvolution network 更加能夠把握原圖的細節信息。
而與FCN8 對比之後也證明了這一點:
而對於deep network 中local optima 的問題,作者提出了
1. batch normalization
2. two-stage training
這兩個方法來解決。(這裏現在僅僅知道這樣有效,還不能理解爲什麼這樣就有效,所以僅列出其方法,求大神講解)