激活函數介紹

ReLU對比Sigmoid主要變化:
1.單側抑制
2.相對寬闊的興奮邊界
3.稀疏激活性

(1) sigmoid函數(曲線很像“S”型)

公式:

image

曲線:

image

也叫 Logistic 函數,用於隱層神經元輸出
取值範圍爲(0,1)
它可以將一個實數映射到(0,1)的區間,可以用來做二分類。(它不像SVM直接給出一個分類的結果,Logistic Regression給出的是這個樣本屬於正類或者負類的可能性是多少,當然在多分類的系統中給出的是屬於不同類別的可能性,進而通過可能性來分類。)
在特徵相差比較複雜或是相差不是特別大時效果比較好。

sigmoid缺點:
激活函數計算量大,反向傳播求誤差梯度時,求導涉及除法
反向傳播時,很容易就會出現梯度消失的情況,從而無法完成深層網絡的訓練(sigmoid的飽和性)

下面解釋爲何會出現梯度消失:

反向傳播算法中,要對激活函數求導,sigmoid 的導數表達式爲:

image

sigmoid 原函數及導數圖形如下:

image

從上圖可以看到,其兩側導數逐漸趨近於0

具有這種性質的稱爲軟飽和激活函數。具體的,飽和又可分爲左飽和與右飽和。與軟飽和對應的是硬飽和, 即
sigmoid 的軟飽和性,使得深度神經網絡在二三十年裏一直難以有效的訓練,是阻礙神經網絡發展的重要原因。具體來說,由於在後向傳遞過程中,sigmoid向下傳導的梯度包含了一個 因子(sigmoid關於輸入的導數),因此一旦輸入落入飽和區,的導數就會變得接近於0,導致了向底層傳遞的梯度也變得非常小。此時,網絡參數很難得到有效訓練。這種現象被稱爲梯度消失。一般來說, sigmoid 網絡在 5 層之內就會產生梯度消失現象

此外,sigmoid函數的輸出均大於0,使得輸出不是0均值,這稱爲偏移現象,這會導致後一層的神經元將得到上一層輸出的非0均值的信號作爲輸入。

(2) Tanh函數

公式

這裏寫圖片描述

這裏寫圖片描述

其中sinh(x)數學公式爲:
這裏寫圖片描述

其中cosh(x)數學公式爲:
這裏寫圖片描述

(3) ReLU

Rectified Linear Unit(ReLU) - 用於隱層神經元輸出

公式

image

曲線

image

輸入信號 <0 時,輸出都是0,>0 的情況下,輸出等於輸入

ReLU 的優點:
發現使用 ReLU 得到的 SGD 的收斂速度會比 sigmoid/tanh 快很多。除此之外,當x<0時,ReLU硬飽和,而當x>0時,則不存在飽和問題。所以,ReLU 能夠在x>0時保持梯度不衰減,從而緩解梯度消失問題。這讓我們能夠直接以監督的方式訓練深度神經網絡,而無需依賴無監督的逐層預訓練。

ReLU 的缺點:
隨着訓練的推進,部分輸入會落入硬飽和區,導致對應權重無法更新。這種現象被稱爲“神經元死亡”。與sigmoid類似,ReLU的輸出均值也大於0,偏移現象和 神經元死亡會共同影響網絡的收斂性。

(4) softmax函數

Softmax - 用於多分類神經網絡輸出

公式

image

舉個例子來看公式的意思:

image

就是如果某一個 zj 大過其他 z, 那這個映射的分量就逼近於 1,其他就逼近於 0,主要應用就是多分類。

爲什麼要取指數,第一個原因是要模擬 max 的行爲,所以要讓大的更大。
第二個原因是需要一個可導的函數。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章