Deep Learning 激活函數總結

引入激活函數的意義：

激活函數是用來加入非線性因素的，提高神經網絡對模型的表達能力，解決線性模型所不能解決的問題（比如線性不可分的問題）。

激活函數的作用：

在沒有激活函數的神經網絡中所有的變換都是線性的，所以無論網絡結構如何輸出總是輸入的線性組合

用多個感知機來進行組合, 獲得更強的分類能力

所以在面對線性不可分的數據時一般有兩種辦法： 引入激活函數， 引入核函數。

引入核函數：將在低維空間的線性不可分數據通過核函數映射到線性可分的高維空間中找到一個超平面進行分割，本質上使用的還是線性分類器。

引入激活函數：將線性分類器轉化爲非線性分類器

常見的激活函數：

Sigmoid & tanh

從數學上來看，非線性的Sigmoid函數對中央區的信號增益較大，對兩側區的信號增益小，在信號的特徵空間映射上，有很好的效果。

從神經科學上來看，中央區酷似神經元的興奮態，兩側區酷似神經元的抑制態，因而在神經網絡學習方面，可以將重點特徵推向中央區，將非重點特徵推向兩側區。

無論是哪種解釋，看起來都比早期的線性激活函數(y=x),階躍激活函數(-1/1,0/1)高明瞭不少。

Sigmoid

sigmoid function在歷史上流行過一段時間因爲它能夠很好的表達“激活”的意思，未激活就是0，完全飽和的激活則是1。

而現在sigmoid已經不怎麼常用了，主要是因爲它有三個缺點:

Sigmoids saturate and kill gradients. Sigmod導致的梯度消失問題是致命的，將會導致學習無法進行。當輸入非常大或者非常小的時候（saturation），這些神經元的梯度是接近於0的，從圖中可以看出梯度的趨勢。
Sigmoids outputs are not zerocentered. Sigmoid函數輸出不是0均值的，會導致梯度全部爲正或全部爲負
Exp() is a bit compute expensive. 因爲有指數運算導致運算消耗較大

使用BN（Batch Normalization ）能同時緩解前兩個問題。個人理解BN就是通過一定的規範化手段，把每層神經網絡任意神經元這個輸入值的分佈強行拉回到均值爲0方差爲1的標準正態分佈。

tanh

tanh解決了sigmoid的第二個問題但依然有梯度消失的危險同時依然有指數運算。tanh是sigmoid的變種：

tanh(x)=2sigmoid(2x)−1

RELU

近年來，ReLU 變的越來越受歡迎。它的數學表達式是： f(x)=max(0,x)

看到這裏大家一定有個疑問：relu明明是線性分段函數，爲什麼使用relu會增加非線性元素？

鄒博老師的解釋是：relu構成的神經網絡雖然對每個樣本都是線性變換，但是不同樣本之間經歷的線性變換M並不一樣，所以整個樣本空間在經過relu構成的網絡時其實是經歷了非線性變換的。

relu的優點：

梯度下降速度快速提升，比tanh快了6倍： 因爲relu爲線性不飽和函數，在反向傳播算法中下降梯度等於下降敏感度乘以前一層的輸出值，所以前一層輸出越大，下降的梯度越多。該優點解決了sigmod的問題1的一部分問題。
relu不用計算指數，計算簡單，速度快

relu的缺點:神經元死亡

由於relu在x<0時梯度爲0，導致負的梯度在這個relu被置零，而且再也不會被任何數據激活。如果這種情況發生了，那麼神經元之後的梯度就永遠是0了，也就是relu的神經元壞死，不會對任何數據有所響應。學習率（learning rate）設置的太高，網絡中大約40%的神經元將會死亡（整個訓練過程中都不會激活）

針對以上的缺點，人們提出了LRelu（Leaky-Relu）, PRelu（Parametric ReLU）, RRelu(Randomized Leaky Relu)三種拓展激活函數。