喫透空洞卷積(Dilated Convolutions)

一、空洞卷積的提出

空洞卷積中文名也叫膨脹卷積或者擴張卷積,英文名也叫Atrous Convolution

空洞卷積最初的提出是爲了解決圖像分割的問題而提出的,常見的圖像分割算法通常使用池化層和卷積層來增加感受野(Receptive Filed),同時也縮小了特徵圖尺寸(resolution),然後再利用上採樣還原圖像尺寸,特徵圖縮小再放大的過程造成了精度上的損失,因此需要一種操作可以在增加感受野的同時保持特徵圖的尺寸不變,從而代替下采樣和上採樣操作,在這種需求下,空洞卷積就誕生了(略有修改,引自[4])

玖零猴:感受野(Receptive Field)的理解與計算@玖零猴@

當然,如果不用空洞卷積這種方案,那怎麼去彌補經過下采樣而造成信息損失呢?其實,這是另一個思路了,於是纔有了我們熟知的skip connection,它可以爲上採樣彌補信息,像FCN、U-Net這種典型的拓撲網絡,如下圖所示,其實我個人認爲,如果一個問題如果從不同的思路去想的話,就會出現不同的解決方案

v2-5ec6c6df193c3a20e75ab9fbd2f0ed22_b.jpg
圖1 FCN、U-Net典型的分割拓撲結構:下采樣、上採樣、skip connection(圖來自[6])
 

空洞卷積自2016在ICLR(International Conference on Learning Representation)上才被提出後,本身是用在圖像分割領域,但立馬被deepmind拿來應用到語音(WaveNet)和NLP領域,它在物體檢測也發揮了重要的作用,雖然不要求逐個像素檢測,但對於小物體的檢測也是十分重要的

二、空洞卷積的原理

與正常的卷積不同的是,空洞卷積引入了一個稱爲 “擴張率(dilation rate)”的超參數(hyper-parameter),該參數定義了卷積核處理數據時各值的間距。擴張率中文也叫空洞數(Hole Size)。

v2-bbf1fc0921741b5299962f8b1a8c590d_b.jpg
圖2 普通卷積和空洞卷積的對比(來自[4])
 

  • a是普通的卷積過程(dilation rate = 1),卷積後的感受野爲3
  • b是dilation rate = 2的空洞卷積,卷積後的感受野爲5
  • c是dilation rate = 3的空洞卷積,卷積後的感受野爲8

可以這麼說,普通卷積是空洞卷積的一種特殊情況

另外,空洞卷積可以增大感受野,但是可以不改變圖像輸出特徵圖的尺寸(分辨率,resolution),這句話怎麼理解?

爲了更好地理解這一點,我們從一維去分析容易理解點

 

v2-2aa3d941c9fc9014f8af8dd1bcf3a394_b.jpg
圖3 一維版的普通卷積(a、b)和空洞卷積(c),黑色的圓表示填充部分,a、b、c它們相互獨立進行卷積 (來自[8])
 

從b和c可以看出,有無空洞卷積,並不影響輸出特徵圖的尺寸,也就是說輸出特徵圖的尺和空洞數無關,因此可以利用空洞卷積增大感受野,而輸出特徵圖的尺寸可以保持不變

v2-708fc02ef67d590f189fcf8e31888ae0_b.jpg
標題

由於保持特徵圖尺寸不變,所以導致了計算過程的計算量比較大

 

保持住特徵圖不變,那怎麼能利用多尺度信息?

在解答這個問題之前,先補充兩點知識

知識一:我們知道,神經元感受野的值越大表示其能接觸到的原始圖像範圍就越大,也意味着它可能蘊含更爲全局,語義層次更高的特徵;相反,值越小則表示其所包含的特徵越趨向局部和細節。因此感受野的值可以用來大致判斷每一層的抽象層次。

知識二:在贏得其中一屆ImageNet比賽裏VGG網絡的文章中,他最大的貢獻並不是VGG網絡本身,而是他對於卷積疊加的一個巧妙觀察。1個 7 x 7 的卷積層的正則等效於 3 個 3 x 3 的卷積層的疊加。而這樣的設計可以大幅度的減少參數,有正則化的效果,參數少了就沒那麼容易發生過擬合。這也是現在絕大部分基於卷積的深層網絡都在用小卷積核的原因,常常使用3 x 3的卷積核

獲取多尺度信息在視覺任務中相當重要,尤其是在Dense prediction(對每個像素進行分類)問題上,它能夠提高準確性的,如語義分割

dense prediction problems such as semantic segmentation ... to increase the performance of dense prediction architectures by aggregating multi-scale contextual information(來自[1])

三、感受野的計算

爲了好看,我們把圖2放下來

 

v2-bbf1fc0921741b5299962f8b1a8c590d_b.jpg
圖2 普通卷積和空洞卷積的對比(來自[4])
 

同樣的,當前層的步長並不影響當前層的感受野,感受野和填補(padding)沒有關係

 

下面舉個例子練練手,此圖4和上面的圖2有區別,圖2的三幅圖是獨立的,而圖4是從左到右連續進行卷積,它們屬於top-bottom關係

 

v2-64234aa6a514f2d6e2d83e36b7da1a87_b.jpg
圖4 三個不同的空洞卷積,卷積核的kernel size=3, stride=1, 但是空洞卷積的dilation rate分別是1,2,4。默認初始化感受野是1。(來自[1])
 

感受野的計算

輸入圖像: 1

 

四、潛在的問題及解決方法

潛在問題 1:The Gridding Effect

假設我們僅僅多次疊加 dilation rate 2 的 3 x 3 kernel 的話,則會出現這個問題:

v2-d507a2bb5731932ee8e9ee2708bb95f7_b.jpg

由於空洞卷積的計算方式類似於棋盤格式,某一層得到的卷積結果,來自上一層的獨立的集合,沒有相互依賴,因此該層的卷積結果之間沒有相關性,即局部信息丟失。這對 pixel-level dense prediction 的任務來說是致命的。

潛在問題 2 :Long-ranged information might be not relevant.

遠距離獲取的信息沒有相關性:由於空洞卷積稀疏的採樣輸入信號,使得遠距離卷積得到的信息之間沒有相關性,影響分類結果。

 

解決方案

具體可參考[5,9]

  • Panqu Wang,Pengfei Chen, et al.Understanding Convolution for Semantic Segmentation.//WACV 2018
  • Fisher Yu, et al. Dilated Residual Networks. //CVPR 2017
  • Zhengyang Wang,et al.Smoothed Dilated Convolutions for Improved Dense Prediction.//KDD 2018.
  • Liang-Chieh Chen,et al.Rethinking Atrous Convolution for Semantic Image Segmentation//2017
  • Sachin Mehta,et al. ESPNet: Efficient Spatial Pyramid of DilatedConvolutions for Semantic Segmentation. //ECCV 2018
  • Tianyi Wu,et al.Tree-structured Kronecker Convolutional Networks for Semantic Segmentation.//AAAI2019
  • Hyojin Park,et al.Concentrated-Comprehensive Convolutionsfor lightweight semantic segmentation.//2018
  • Efficient Smoothing of Dilated Convolutions for Image Segmentation.//2019

reference

1、Yu, Fisher, and Vladlen Koltun. "Multi-scale context aggregation by dilated convolutions." arXiv preprint arXiv:1511.07122 (2015).

2、Understanding Convolution for Semantic Segmentation

3、Rethinking Atrous Convolution for Semantic Image Segmentation

4、書籍《深度學習之PyTorch物體檢測實戰》

5、如何理解空洞卷積(dilated convolution)?

6、U-Net++作者對U-Net的分析

7、GIF動圖,加深普通卷積和空洞卷積的區別: 點擊這裏

8、如何理解Dilated Convolutions(空洞卷積)

9、yyfyan:總結-空洞卷積(Dilated/Atrous Convolution)

 

v2-a0627f5b41cb228d3d5f35db1dd7dfa1_b.jpg

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章