激活函數

激活函數

原創

2019-08-06 19:03

這次看看激活函數及其相關。
先來看看一個簡單神經元的結構吧！
在胞體之前是有一個WX的計算，再加上一個bias，從而求算出新的數值，這時候激活函數出場了，它的目的就是對剛剛的數值進行一個轉換，使得轉換後的數值更加易於後期的處理。激活函數家族中大家比較熟悉的就是我們在反向傳播的時候引例中的Sigmoid函數。那麼我們就看看Sigmoid函數的特性。

Sigmoid 函數

首先一個比較顯然的就是它會把輸入值轉化爲一個(0,1)內的數值，其實在計算機中寫成[0,1]也差不多啦。在人工智能還不是很蓬勃發展的時候，人們比較認可這個函數的存在，因爲在生物學角度上它很像神經元的飽和放電率（firing rate）的圖像。但在它的背後有幾個比較坑人而又不適用的缺陷。

首先，飽和神經元會導致梯度消失。假設我的輸入值是10，那麼不難看出它的梯度基本是0，那麼還會導致梯度的顯著而有效的變化嗎？顯然不會！又假設我的輸入值是0，那梯度基本是可以算出來的，很贊！那如果變成-10呢？又不行了QAQ……
回憶反向傳播的內容，也就是說數值的絕對值過大導致Sigmoid門處的神經元的飽和從而讓本地梯度變爲0，從而導致在反向傳播的時候它下游的中間變量變化值也爲0，那自變量就會基本不變了。
其次，該函數並不是零中心函數。假設我們輸入的X全是正的，這就會使得每次變化的時候，梯度值總會保留上游梯度的符號，從而每一個權值的變化都是相同的符號，都朝一個方向變化，這樣會發生什麼問題呢？看看下面這張圖吧！