ICLR-2016
文章目錄
1 Background and Motivation
計算機視覺中許多問題都是 dense prediction 問題,也就是給每個 pixel 預測一個連續的或者離散的標籤!
最突出的的例子是語義分割,FCN 論文展示了爲 classification 而設計的 CNN 也可以成功的運用到 dense prediction
由於 classification 和 dense prediction 任務是不同的,引發了作者如下的兩個思考:
- classification 任務中的 CNN repurposed for dense prediction 任務中,CNN結構中哪些方面是真正有用的呢?哪些方面又會影響 dense prediction 的精度呢?
- 在 CNN 結構基礎上,爲 dense prediction 設計一個專用模塊,能否進一步提升 dense prediction 的精度呢?
現在的分類網絡,通過不斷的下采樣來 integrate multi-scale contextual information,最終輸入一個 global prediction!然而 dense prediction 既需要 multiscale contextual reasoning(eg,只有一個像素了) 也需要 full-resolution output!這兩者是有 conflicting 的!現有工作解決 multiscale contextual reasoning 和 full-resolution output 之間的衝突有如下兩種方法
- repeated 上採樣,來 recover lost resolution,同時,下采樣所提取的 global perspective 也會隨着上採樣傳遞上去。問題:severe intermediate downsampling 是否真的有必要,必須鳳凰涅槃,撞了南牆才肯回頭嗎?
- 用 multiple rescaled versions of the image 作爲網絡的輸入,然後把他們的結果 combining。問題:不清楚分開分析這些 rescaled input images 是否有必要!
作者提出 Dilated Conv 來緩解這個矛盾
- aggregates multi-scale contextual information without losing resolution or analyzing rescaled images
- support exponential expansion of the receptive field without loss of resolution or coverage.
2 Advantages / Contributions
3 Method
3.1 Dilated Convolution
- 傳統卷積
理解不是那麼直觀,看看下面的式子就好理解了(是真正的卷積喲,不是相關,參考 別怕,"卷積"其實很簡單)
嗦嘎,那麼傳統卷積中每個變量對應的含義如下:- 是特徵圖
- 是卷積核
- 是感受野大小,上面公式展示的是感受野半徑
- dilated 卷積
多了一個 dilation factor
-
傳統卷積的話,一直用 3×3 堆疊卷積, 的感受野是 3×3, 的感受野是 5×5, 的感受野是 7×7!感受野線性增長
-
dilated 卷積的話,如下圖所示,每個3×3 堆疊卷積,配合線性增長的 dilation factor,感受野隨着層數的增加指數級增長。 的感受野爲 ,
- 3×3卷積是 1-dilated convolution,堆疊起來,感受野升 1 級(感受野增加2)
- 在 的基礎上用了 2-dilated convolution,相當於感受野升了 2 級, 感受野是 3×3,升了 2 級就是 7×7
- 在 的基礎上用了 4-dilated convolution,相當於感受野升了4級, 感受野是 7×7,升了 4 級就是 15×15
3.2 Multi-scale Context Aggregation
用來捕獲 multi-scale context 的模塊,C channel 的 feature map 作爲輸入,C channel feature map 作爲輸出,輸入和輸出相同,dilated convolution 來增加感受野,3×3堆疊,分辨率沒有下降
有了 3.1 小節的分析,這個表的感受野也比較清晰了:
- 在 的基礎上用了 4-dilated convolution,相當於感受野升了 4 級, 感受野是 9×9,升了 4 級就是 17×17
- 在 的基礎上用了 8-dilated convolution,相當於感受野升了 8 級, 感受野是 17×17,升了 8 級就是 33×33
- 在 的基礎上用了 16-dilated convolution,相當於感受野升了 16 級, 感受野是 33×33,升了 16 級就是 65×65
pointwise truncation:max(·,0),應該指的是分辨率維度上的
實驗中這個模塊接在 64×64分辨率的特徵圖上,所以 layer 6 之後就沒有進行 dilated conv 了
這個模塊採用隨即初始化效果不好,作者採用瞭如下初始化方法
- 和 是連續兩層的特徵通道數,
- 、 分別爲輸入特徵圖和輸出特徵圖的索引
- 不曉得是什麼