CNN中的卷積和池化個人理解

針對於圖像識別中常用的CNN,其原理中的卷積層和池化層是最讓人不好理解的。在看完各位大佬的解釋後,小弟趁熱打鐵把目前的理解做個簡單的總結。
以下純屬個人理解,如有錯誤,請指正。

卷積:通過探頭(filter)在輸入矩陣中按照一定步長(stride)去無間隙的掃描。
在這裏插入圖片描述
拿圖像處理爲例,出去常見的二維平面,增加了一個深度(depth)的維度,其中深度可以理解爲三維平面。filter的深度必須與輸入樣本是一致的,就像三維中的3個平面,filter就是三位中的對應不同層面的探頭。由於探頭在掃描過程中,矩陣中間的元素被掃描到的概率會更大一些,所以爲了平衡邊緣元素被掃描到的概率,所以增加了一個pad概念,即在整個矩陣外圍增加一圈0,pad=n, 就增加n全0。卷積層在整個卷積神經網絡中可以有多個。最終經過卷積層輸出的結果的深度就是filter的個數。那麼數據結果的尺寸又是多大呢?如下:
h(in)是輸入的h大小,,w(in)是輸入的w大小,Filter是卷積探頭個數,Pad是增加的圈數,stride是步長
通過整個卷積過程,可以將卷積的操作理解爲對輸入樣本的特徵提取和一定程度上的降維。即卷積就是上採樣

池化(Pooling):池化的過程是一種降維壓縮的過程
在這裏插入圖片描述
在池化探頭下,根據設定的Pooling方式來對掃描的區域進行降維,常用的是Max和Mean,經過探頭掃描後,提取掃描區域中的max或者mean,這是前向反饋。
在這裏插入圖片描述
在反向傳播過程中,Pooling層會將殘差按照Pooling方式將殘差傳入對應的矩陣位置。如果當時選擇的Max,則會將殘差傳入當時Max的矩陣位置;如果是mean,Pooling會將殘差取mean,然後傳入矩陣每一個位置。
在這裏插入圖片描述
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章