激活函數介紹

ReLU對比Sigmoid主要變化：
1.單側抑制
2.相對寬闊的興奮邊界
3.稀疏激活性

(1) sigmoid函數（曲線很像“S”型）

公式：

曲線：

也叫 Logistic 函數，用於隱層神經元輸出
取值範圍爲(0,1)
它可以將一個實數映射到(0,1)的區間，可以用來做二分類。（它不像SVM直接給出一個分類的結果，Logistic Regression給出的是這個樣本屬於正類或者負類的可能性是多少，當然在多分類的系統中給出的是屬於不同類別的可能性，進而通過可能性來分類。）
在特徵相差比較複雜或是相差不是特別大時效果比較好。

sigmoid缺點：
激活函數計算量大，反向傳播求誤差梯度時，求導涉及除法
反向傳播時，很容易就會出現梯度消失的情況，從而無法完成深層網絡的訓練（sigmoid的飽和性）

下面解釋爲何會出現梯度消失：

反向傳播算法中，要對激活函數求導，sigmoid 的導數表達式爲：

sigmoid 原函數及導數圖形如下：

從上圖可以看到，其兩側導數逐漸趨近於0

具有這種性質的稱爲軟飽和激活函數。具體的，飽和又可分爲左飽和與右飽和。與軟飽和對應的是硬飽和, 即
sigmoid 的軟飽和性，使得深度神經網絡在二三十年裏一直難以有效的訓練，是阻礙神經網絡發展的重要原因。具體來說，由於在後向傳遞過程中，sigmoid向下傳導的梯度包含了一個因子（sigmoid關於輸入的導數），因此一旦輸入落入飽和區，的導數就會變得接近於0，導致了向底層傳遞的梯度也變得非常小。此時，網絡參數很難得到有效訓練。這種現象被稱爲梯度消失。一般來說， sigmoid 網絡在 5 層之內就會產生梯度消失現象

此外，sigmoid函數的輸出均大於0，使得輸出不是0均值，這稱爲偏移現象，這會導致後一層的神經元將得到上一層輸出的非0均值的信號作爲輸入。

(2) Tanh函數

公式

其中sinh(x)數學公式爲：

其中cosh(x)數學公式爲：

(3) ReLU

Rectified Linear Unit(ReLU) - 用於隱層神經元輸出

公式

曲線

輸入信號 <0 時，輸出都是0，>0 的情況下，輸出等於輸入

ReLU 的優點：
發現使用 ReLU 得到的 SGD 的收斂速度會比 sigmoid/tanh 快很多。除此之外，當x<0時，ReLU硬飽和，而當x>0時，則不存在飽和問題。所以，ReLU 能夠在x>0時保持梯度不衰減，從而緩解梯度消失問題。這讓我們能夠直接以監督的方式訓練深度神經網絡，而無需依賴無監督的逐層預訓練。

ReLU 的缺點：
隨着訓練的推進，部分輸入會落入硬飽和區，導致對應權重無法更新。這種現象被稱爲“神經元死亡”。與sigmoid類似，ReLU的輸出均值也大於0，偏移現象和神經元死亡會共同影響網絡的收斂性。

(4) softmax函數

Softmax - 用於多分類神經網絡輸出

公式

舉個例子來看公式的意思：

就是如果某一個 zj 大過其他 z, 那這個映射的分量就逼近於 1,其他就逼近於 0，主要應用就是多分類。

爲什麼要取指數，第一個原因是要模擬 max 的行爲，所以要讓大的更大。
第二個原因是需要一個可導的函數。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

激活函數介紹

(1) sigmoid函數（曲線很像“S”型）

(2) Tanh函數

(3) ReLU

(4) softmax函數

Unity打包exe文件

初識Tensorflow 數字識別MNIST

醫藥領域知識圖譜快速及醫藥問答項目--項目探究

HMM模型的一些理解

圖像預處理完整案例純代碼

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結