感受野以及與卷積核運算比較——低調學習CNN(2)

感受野(Receptive Field)定義:

卷積神經網絡各輸出特徵圖中的每個像素點,在原始輸入圖片上映射區域的大小


我們來看一例子:
原始圖片爲5*5:

使用3*3的卷積覈對其進行卷積操作,得到右下角特徵圖:

則右下角被綠色框框 框起來的像素點感受野爲3

在對輸出的3*3特徵圖進行3*3的卷積操作,得到1*1的特徵圖:
在這裏插入圖片描述
而該1*1的特徵圖的唯一像素點的感受範圍爲初始特徵圖,即其感受野爲5

而我們也可以直接用5*5的卷積覈對原圖進行卷積操作:

在這裏插入圖片描述
則也同樣得到1*1的特徵圖,該像素的感受野也是5

很明顯,二者的特徵提取能力是一樣的。那麼問題來了,我們是使用兩個3*3的卷積核進行特徵提取呢,還是直接使用5*5的卷積核進行特徵提取呢?

如果你見過VGG等網絡的結構,你可能會猜測,會選擇兩個3*3的卷積核進行操作,但究竟是爲什麼呢?

這個時候,我們就需要考慮,兩種卷積運算所能承載的待訓練參數和計算量

這裏我們做假設,輸入特徵圖的寬高均爲xx,卷積計算的步長爲1
兩層3*3的卷積核:
在這裏插入圖片描述
參數量:3×3×2=183\times 3 \times 2 = 18
計算量:(x3+1)2×9+(x23+1)2×9=18x2108x+180(x-3+1)^{2}\times 9 + (x-2-3+1)^2\times 9=18x^{2}-108x+180

在這裏插入圖片描述
參數量:5×5=255\times 5 = 25
計算量:(x5+1)2×25=25x2200x+400(x-5+1)^{2}\times 25=25x^{2}-200x+400


經簡單運算得到x>10x > 10時,使用兩層3*3卷積運算優於一次5*5的卷積運算

所以我們可以看到,在VGG網絡中,只有3*3的卷積運算在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章