Learning Deconvolution Network for Semantic Segmentation

原創文章,引用請註明出處:http://blog.csdn.net/tonyyang1995 謝謝!

最近在讀深度學習中深度學習的論文,老闆要寫總結所以順便發上來記錄一下。

Learning Deconvolution Network for Semantic Segmentation 這篇論文主要優化的是傳統反捲積網絡的一些limitation。

傳統FCN 存在的limitation:
1. 它的network pre-defined a fixed size receptive field(這個會導致比這個field 大或者小的object會fragment 或 mislabel,而且比較小的物體可能會被忽略或者被分類成背景)
這裏寫圖片描述
2. 物體的具體結構可能會消失 因爲輸入的label map 比較粗糙而且deconvolution 的操作比較簡單
這裏寫圖片描述
所以即使已經使用了CRF 但是效果還是不太好。

爲了解決這些問題:
作者提出了一個深度的反捲積網絡。
這個網絡由多個deconvolution,unpooling,relu組成。
訓練的network 是應用於單獨的object proposal 來獲得instance-wise 分割
在VOC12 的數據集上的表現比其他的FCN-based method 要好。
它的結構圖如下:
這裏寫圖片描述
從這個圖我們可以看出它的convolution 和deconvolution 是鏡像的。

這裏作者使用了unpooling 操作顧名思義就是把polling的操作反過來,但是因爲pooling的操作不可逆,這個unpooling操作只能把傳進來的特徵按照原來的位置重新擺放,近似pooling 前的卷積特徵。
這裏寫圖片描述

deconvolution
這裏寫圖片描述
這裏parameter 是可以學習的。

在論文中,作者對於deep deconvolution network 的分析後發現: 越complex 的能夠capture更多的細節。
這裏寫圖片描述
從上圖中我們可以發現越深的Deconvolution network 更加能夠把握原圖的細節信息。

而與FCN8 對比之後也證明了這一點:
這裏寫圖片描述

而對於deep network 中local optima 的問題,作者提出了
1. batch normalization
2. two-stage training
這兩個方法來解決。(這裏現在僅僅知道這樣有效,還不能理解爲什麼這樣就有效,所以僅列出其方法,求大神講解)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章