感受野(Receptive Field)定義:
卷積神經網絡各輸出特徵圖中的每個像素點,在原始輸入圖片上映射區域的大小
我們來看一例子:
原始圖片爲5*5:
使用3*3的卷積覈對其進行卷積操作,得到右下角特徵圖:
則右下角被綠色框框 框起來的像素點感受野爲3
在對輸出的3*3特徵圖進行3*3的卷積操作,得到1*1的特徵圖:
而該1*1的特徵圖的唯一像素點的感受範圍爲初始特徵圖,即其感受野爲5
而我們也可以直接用5*5的卷積覈對原圖進行卷積操作:
則也同樣得到1*1的特徵圖,該像素的感受野也是5
很明顯,二者的特徵提取能力是一樣的。那麼問題來了,我們是使用兩個3*3的卷積核進行特徵提取呢,還是直接使用5*5的卷積核進行特徵提取呢?
如果你見過VGG等網絡的結構,你可能會猜測,會選擇兩個3*3的卷積核進行操作,但究竟是爲什麼呢?
這個時候,我們就需要考慮,兩種卷積運算所能承載的待訓練參數和計算量
這裏我們做假設,輸入特徵圖的寬高均爲,卷積計算的步長爲1
兩層3*3的卷積核:
參數量:
計算量:
參數量:
計算量:
經簡單運算得到時,使用兩層3*3卷積運算優於一次5*5的卷積運算
所以我們可以看到,在VGG網絡中,只有3*3的卷積運算