【Dilated Conv】《Multi-Scale Context Aggregation by Dilated Convolutions》

原創

2020-04-27 18:42

ICLR-2016

文章目錄

1 Background and Motivation

計算機視覺中許多問題都是 dense prediction 問題，也就是給每個 pixel 預測一個連續的或者離散的標籤！

最突出的的例子是語義分割，FCN 論文展示了爲 classification 而設計的 CNN 也可以成功的運用到 dense prediction

由於 classification 和 dense prediction 任務是不同的，引發了作者如下的兩個思考：

classification 任務中的 CNN repurposed for dense prediction 任務中，CNN結構中哪些方面是真正有用的呢？哪些方面又會影響 dense prediction 的精度呢？
在 CNN 結構基礎上，爲 dense prediction 設計一個專用模塊，能否進一步提升 dense prediction 的精度呢？

現在的分類網絡，通過不斷的下采樣來 integrate multi-scale contextual information，最終輸入一個 global prediction！然而 dense prediction 既需要 multiscale contextual reasoning（eg，只有一個像素了）也需要 full-resolution output！這兩者是有 conflicting 的！現有工作解決 multiscale contextual reasoning 和 full-resolution output 之間的衝突有如下兩種方法

repeated 上採樣，來 recover lost resolution，同時，下采樣所提取的 global perspective 也會隨着上採樣傳遞上去。問題：severe intermediate downsampling 是否真的有必要，必須鳳凰涅槃，撞了南牆才肯回頭嗎？
用 multiple rescaled versions of the image 作爲網絡的輸入，然後把他們的結果 combining。問題：不清楚分開分析這些 rescaled input images 是否有必要！

作者提出 Dilated Conv 來緩解這個矛盾

aggregates multi-scale contextual information without losing resolution or analyzing rescaled images
support exponential expansion of the receptive field without loss of resolution or coverage.

2 Advantages / Contributions

3 Method

3.1 Dilated Convolution

傳統卷積

理解不是那麼直觀，看看下面的式子就好理解了（是真正的卷積喲，不是相關，參考別怕，"卷積"其實很簡單）

嗦嘎，那麼傳統卷積中每個變量對應的含義如下：
- $F$ 是特徵圖
- $k$ 是卷積核
- $p$ 是感受野大小，上面公式展示的是感受野半徑

dilated 卷積

多了一個 dilation factor $l$

傳統卷積的話，一直用 3×3 堆疊卷積， $F_1$ 的感受野是 3×3， $F_2$ 的感受野是 5×5， $F_3$ 的感受野是 7×7！感受野線性增長
dilated 卷積的話，如下圖所示，每個3×3 堆疊卷積，配合線性增長的 dilation factor，感受野隨着層數的增加指數級增長。 $F_{i+1}$ 的感受野爲 $(2^{i+2}-1)×(2^{i+2}-1)$ ，
- 3×3卷積是 1-dilated convolution，堆疊起來，感受野升 1 級（感受野增加2）
- $F_2$ 在 $F_1$ 的基礎上用了 2-dilated convolution，相當於感受野升了 2 級， $F_1$ 感受野是 3×3，升了 2 級就是 7×7
- $F_3$ 在 $F_2$ 的基礎上用了 4-dilated convolution，相當於感受野升了4級， $F_2$ 感受野是 7×7，升了 4 級就是 15×15

3.2 Multi-scale Context Aggregation

用來捕獲 multi-scale context 的模塊，C channel 的 feature map 作爲輸入，C channel feature map 作爲輸出，輸入和輸出相同，dilated convolution 來增加感受野，3×3堆疊，分辨率沒有下降

有了 3.1 小節的分析，這個表的感受野也比較清晰了：

$F_4$ 在 $F_3$ 的基礎上用了 4-dilated convolution，相當於感受野升了 4 級， $F_3$ 感受野是 9×9，升了 4 級就是 17×17
$F_5$ 在 $F_4$ 的基礎上用了 8-dilated convolution，相當於感受野升了 8 級， $F_4$ 感受野是 17×17，升了 8 級就是 33×33
$F_6$ 在 $F_5$ 的基礎上用了 16-dilated convolution，相當於感受野升了 16 級， $F_4$ 感受野是 33×33，升了 16 級就是 65×65

pointwise truncation：max(·,0)，應該指的是分辨率維度上的

實驗中這個模塊接在 64×64分辨率的特徵圖上，所以 layer 6 之後就沒有進行 dilated conv 了

這個模塊採用隨即初始化效果不好，作者採用瞭如下初始化方法

$c_i$ 和 $c_{i+1}$ 是連續兩層的特徵通道數，
$a$ 、 $b$ 分別爲輸入特徵圖和輸出特徵圖的索引
$t$ 不曉得是什麼

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【Dilated Conv】《Multi-Scale Context Aggregation by Dilated Convolutions》

文章目錄

1 Background and Motivation

2 Advantages / Contributions

3 Method

3.1 Dilated Convolution

3.2 Multi-scale Context Aggregation

AI 畫圖真刺激，手把手教你如何用 ComfyUI 來畫出刺激的圖

公司剛入職了一名 Java 中級開發，短短 4 行代碼居然湊齊了 3 個 bug！我哭了~~

數據展示動態（跑分）顯示

公衆號5月C#/.NET熱文一覽

git 下載大陸鏡像地址

【python】Stack / Queue

【python】Single / Single Cycle / Double Link List

【MoCo】《Momentum Contrast for Unsupervised Visual Representation Learning》

【python】Sort and Search

【Distilling】《Learning Efficient Object Detection Models with Knowledge Distillation》

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結