CNN的重點整理

原創

2020-06-24 09:40

1.常用的非線性激活函數: sigmoid、tanh、relu等等，前兩者sigmoid/tanh比較常見於全鏈接層，後者relu常見於卷積層。這裏先簡要介紹下最基礎的sigmoid函數（btw，在本博客中SVM那篇文章開頭有提過）。

sigmoid的函數表達式如下

其中z是一個線性組合，比如z可以等於：b +* + *。通過代入很大的正數或很小的負數到g(z)函數中可知，其結果趨近於0或1。

因此，sigmoid函數g(z)的圖形表示如下（橫軸表示定義域z，縱軸表示值域g(z) ）：

也就是說，sigmoid函數的功能是相當於把一個實數壓縮至0到1之間。當z是非常大的正數時，g(z)會趨近於1，而z是非常大的負數時，則g(z)會趨近於0。

壓縮至0到1有何用處呢？用處是這樣一來便可以把激活函數看作一種“分類的概率”，比如激活函數的輸出爲0.9的話便可以解釋爲90%的概率爲正樣本。

舉個例子，如下圖（圖引自Stanford機器學習公開課）

z = b +* + *，其中b爲偏置項假定取-30，、都取爲20

如果 = 0 = 0，則z = -30，g(z) = 1/( 1 + e^-z )趨近於0。此外，從上圖sigmoid函數的圖形上也可以看出，當z=-30的時候，g(z)的值趨近於0
如果 = 0 = 1，或 =1 = 0，則z = b +* + * = -30 + 20 = -10，同樣，g(z)的值趨近於0
如果 = 1 = 1，則z = b +* + * = -30 + 20*1 + 20*1 = 10，此時，g(z)趨近於1。

換言之，只有和都取1的時候，g(z)→1，判定爲正樣本；或取0的時候，g(z)→0，判定爲負樣本，如此達到分類的目的。

左邊數據在變化，每次濾波器都是針對某一局部的數據窗口進行卷積，這就是所謂的CNN中的局部感知機制。
- 打個比方，濾波器就像一雙眼睛，人類視角有限，一眼望去，只能看到這世界的局部。如果一眼就看到全世界，你會累死，而且一下子接受全世界所有信息，你大腦接收不過來。當然，即便是看局部，針對局部裏的信息人類雙眼也是有偏重、偏好的。比如看美女，對臉、胸、腿是重點關注，所以這3個輸入的權重相對較大。
與此同時，數據窗口滑動，導致輸入在變化，但中間濾波器Filter w0的權重（即每個神經元連接數據窗口的權重）是固定不變的，這個權重不變即所謂的CNN中的參數（權重）共享機制。

再打個比方，某人環遊全世界，所看到的信息在變，但採集信息的雙眼不變。btw，不同人的雙眼看同一個局部信息所感受到的不同，即一千個讀者有一千個哈姆雷特，所以不同的濾波器就像不同的雙眼，不同的人有着不同的反饋結果。

附經典動圖理解多通道卷積：

最左邊是數據輸入層，對數據做一些處理，比如去均值（把輸入數據各個維度都中心化爲0，避免數據過多偏差，影響訓練效果）、歸一化（把所有的數據都歸一到同樣的範圍）、PCA/白化等等。CNN只對訓練集做“去均值”這一步。

中間是

最右邊是

參考原博客：http://blog.csdn.net/v_july_v/article/details/51812459#comments

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.