感受野以及與卷積核運算比較——低調學習CNN(2)

感受野(Receptive Field)定義：

卷積神經網絡各輸出特徵圖中的每個像素點，在原始輸入圖片上映射區域的大小

我們來看一例子：
原始圖片爲5*5:

使用3*3的卷積覈對其進行卷積操作，得到右下角特徵圖:

則右下角被綠色框框框起來的像素點感受野爲3

在對輸出的3*3特徵圖進行3*3的卷積操作，得到1*1的特徵圖：

而該1*1的特徵圖的唯一像素點的感受範圍爲初始特徵圖，即其感受野爲5

而我們也可以直接用5*5的卷積覈對原圖進行卷積操作:

則也同樣得到1*1的特徵圖，該像素的感受野也是5

很明顯，二者的特徵提取能力是一樣的。那麼問題來了，我們是使用兩個3*3的卷積核進行特徵提取呢，還是直接使用5*5的卷積核進行特徵提取呢？

如果你見過VGG等網絡的結構，你可能會猜測，會選擇兩個3*3的卷積核進行操作，但究竟是爲什麼呢？

這個時候，我們就需要考慮，兩種卷積運算所能承載的待訓練參數和計算量

這裏我們做假設，輸入特徵圖的寬高均爲 $x$ ，卷積計算的步長爲1
兩層3*3的卷積核:

參數量： $3\times 3 \times 2 = 18$
計算量： $(x-3+1)^{2}\times 9 + (x-2-3+1)^2\times 9=18x^{2}-108x+180$

參數量： $5\times 5 = 25$
計算量： $(x-5+1)^{2}\times 25=25x^{2}-200x+400$

經簡單運算得到 $x > 10$ 時，使用兩層3*3卷積運算優於一次5*5的卷積運算

所以我們可以看到，在VGG網絡中，只有3*3的卷積運算