【Dilated Conv】《Multi-Scale Context Aggregation by Dilated Convolutions》

在這裏插入圖片描述

ICLR-2016



1 Background and Motivation

計算機視覺中許多問題都是 dense prediction 問題,也就是給每個 pixel 預測一個連續的或者離散的標籤!

最突出的的例子是語義分割,FCN 論文展示了爲 classification 而設計的 CNN 也可以成功的運用到 dense prediction

由於 classification 和 dense prediction 任務是不同的,引發了作者如下的兩個思考:

  • classification 任務中的 CNN repurposed for dense prediction 任務中,CNN結構中哪些方面是真正有用的呢?哪些方面又會影響 dense prediction 的精度呢?
  • 在 CNN 結構基礎上,爲 dense prediction 設計一個專用模塊,能否進一步提升 dense prediction 的精度呢?

現在的分類網絡,通過不斷的下采樣來 integrate multi-scale contextual information,最終輸入一個 global prediction!然而 dense prediction 既需要 multiscale contextual reasoning(eg,只有一個像素了) 也需要 full-resolution output!這兩者是有 conflicting 的!現有工作解決 multiscale contextual reasoning 和 full-resolution output 之間的衝突有如下兩種方法

  • repeated 上採樣,來 recover lost resolution,同時,下采樣所提取的 global perspective 也會隨着上採樣傳遞上去。問題:severe intermediate downsampling 是否真的有必要,必須鳳凰涅槃,撞了南牆才肯回頭嗎?
  • 用 multiple rescaled versions of the image 作爲網絡的輸入,然後把他們的結果 combining。問題:不清楚分開分析這些 rescaled input images 是否有必要!

作者提出 Dilated Conv 來緩解這個矛盾

  • aggregates multi-scale contextual information without losing resolution or analyzing rescaled images
  • support exponential expansion of the receptive field without loss of resolution or coverage.

2 Advantages / Contributions

3 Method

3.1 Dilated Convolution

  • 傳統卷積
    在這裏插入圖片描述
    理解不是那麼直觀,看看下面的式子就好理解了(是真正的卷積喲,不是相關,參考 別怕,"卷積"其實很簡單
    在這裏插入圖片描述
    嗦嘎,那麼傳統卷積中每個變量對應的含義如下:
    • FF 是特徵圖
    • kk 是卷積核
    • pp 是感受野大小,上面公式展示的是感受野半徑

  • dilated 卷積
    在這裏插入圖片描述
    多了一個 dilation factor ll

在這裏插入圖片描述

  • 傳統卷積的話,一直用 3×3 堆疊卷積,F1F_1 的感受野是 3×3,F2F_2 的感受野是 5×5,F3F_3 的感受野是 7×7!感受野線性增長

  • dilated 卷積的話,如下圖所示,每個3×3 堆疊卷積,配合線性增長的 dilation factor,感受野隨着層數的增加指數級增長。Fi+1F_{i+1} 的感受野爲 (2i+21)×(2i+21)(2^{i+2}-1)×(2^{i+2}-1)

    • 3×3卷積是 1-dilated convolution,堆疊起來,感受野升 1 級(感受野增加2)
    • F2F_2F1F_1 的基礎上用了 2-dilated convolution,相當於感受野升了 2 級,F1F_1 感受野是 3×3,升了 2 級就是 7×7
    • F3F_3F2F_2 的基礎上用了 4-dilated convolution,相當於感受野升了4級,F2F_2 感受野是 7×7,升了 4 級就是 15×15
      在這裏插入圖片描述

3.2 Multi-scale Context Aggregation

用來捕獲 multi-scale context 的模塊,C channel 的 feature map 作爲輸入,C channel feature map 作爲輸出,輸入和輸出相同,dilated convolution 來增加感受野,3×3堆疊,分辨率沒有下降
在這裏插入圖片描述
有了 3.1 小節的分析,這個表的感受野也比較清晰了:

  • F4F_4F3F_3 的基礎上用了 4-dilated convolution,相當於感受野升了 4 級,F3F_3 感受野是 9×9,升了 4 級就是 17×17
  • F5F_5F4F_4 的基礎上用了 8-dilated convolution,相當於感受野升了 8 級,F4F_4 感受野是 17×17,升了 8 級就是 33×33
  • F6F_6F5F_5 的基礎上用了 16-dilated convolution,相當於感受野升了 16 級,F4F_4 感受野是 33×33,升了 16 級就是 65×65

pointwise truncation:max(·,0),應該指的是分辨率維度上的

實驗中這個模塊接在 64×64分辨率的特徵圖上,所以 layer 6 之後就沒有進行 dilated conv 了

這個模塊採用隨即初始化效果不好,作者採用瞭如下初始化方法

在這裏插入圖片描述
在這裏插入圖片描述

  • cic_ici+1c_{i+1} 是連續兩層的特徵通道數,
  • aabb 分別爲輸入特徵圖和輸出特徵圖的索引
  • tt 不曉得是什麼
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章