梯度消失（vanishing gradient）和梯度爆炸（exploding gradient）

原創

2020-02-21 03:05

神經網絡中梯度不穩定的根本原因：在於前層上的梯度的計算來自於後層上梯度的乘積（鏈式法則）。當層數很多時，就容易出現不穩定。下邊3個隱含層爲例：

其b1的梯度爲：

加入激活函數爲sigmoid，則其導數如下圖：

sigmoid導數σ'的最大值爲1/4。同常一個權值w的取值範圍爲abs(w) < 1，則：|wjσ'(zj)| < 1/4，從而有：

從上式可以得出結論：前層比後層的梯度變化更小，變化更慢，進而引起梯度消失的問題。相反，如果|wjσ'(zj)| > 1時，前層比後層的梯度變化更大，就引起梯度爆炸的問題。實際中，當使用sigmoid作爲激活函數時，更普遍的是梯度消失的問題。

在重複一遍，從根本上講無論是梯度消失還是梯度爆炸，其背後的原因是前層網絡的梯度是後層網絡的乘積，所以神經網絡不穩定。唯一可能的情況是以上連續乘積剛好平衡在1左右，但這種機率很小。

解決梯度消失的方法：

隱含層神經元的激活函數用Relu！

發佈了69 篇原創文章 · 獲贊 133 · 訪問量 48萬+

他的留言板關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

幾種可分卷積

參考： http://www.sohu.com/a/317166403_394987 0. 標準的2D卷積對於神經元的輸入（7*7*3），用一個3*3*3的卷積覈對輸入進行卷積，得到一個5*5*1的特徵圖：若想得到128個特徵圖，需

你吃过卤汁牛肉吗

2020-06-22 00:40:02

萬能近似定理（universal approximation theorrm）

神經網絡的架構（architecture）指網絡的整體結構。大多數神經網絡被組織成稱爲層的單元組，然後將這些層佈置成鏈式結構，其中每一層都是前一層的函數。在這種結構中，第一層由下式給出：第二層：第三層，以此類推！可以看出，每一層

2020-06-16 09:31:20

權重衰減（weight decay）與L2正則化

1. 權重衰減（weight decay） L2正則化的目的就是爲了讓權重衰減到更小的值，在一定程度上減少模型過擬合的問題，所以權重衰減也叫L2正則化。 1.1 L2正則化與權重衰減係數 L2正則化就是在代價函數後面再加上一個正則化項：

2020-06-12 18:24:34

SSD系列目標檢測算法

1.原版SSD 2.tinyDSOD 結合DenseNet和深度可分離卷積，提出了Depthwise dense block (DDB) ；結合FPN和深度可分離卷積，提出了D-FPN；結合提出的Depthwise dense

2020-06-12 18:24:34

矩陣跡運算

2020-02-21 03:05:42

自編碼器（auto-encoder）介紹

2020-02-21 03:05:42

爲什麼交叉熵損失可以提高具有sigmoid和softmax輸出的模型的性能，而使用均方誤差損失則會存在很多問題

2020-02-21 03:05:42

幾種可分卷積

參考： http://www.sohu.com/a/317166403_394987 0. 標準的2D卷積對於神經元的輸入（7*7*3），用一個3*3*3的卷積覈對輸入進行卷積，得到一個5*5*1的特徵圖：若想得到128個特徵圖，需

你吃过卤汁牛肉吗

2020-06-22 00:40:02

萬能近似定理（universal approximation theorrm）

神經網絡的架構（architecture）指網絡的整體結構。大多數神經網絡被組織成稱爲層的單元組，然後將這些層佈置成鏈式結構，其中每一層都是前一層的函數。在這種結構中，第一層由下式給出：第二層：第三層，以此類推！可以看出，每一層

2020-06-16 09:31:20

權重衰減（weight decay）與L2正則化

1. 權重衰減（weight decay） L2正則化的目的就是爲了讓權重衰減到更小的值，在一定程度上減少模型過擬合的問題，所以權重衰減也叫L2正則化。 1.1 L2正則化與權重衰減係數 L2正則化就是在代價函數後面再加上一個正則化項：

2020-06-12 18:24:34

SSD系列目標檢測算法

1.原版SSD 2.tinyDSOD 結合DenseNet和深度可分離卷積，提出了Depthwise dense block (DDB) ；結合FPN和深度可分離卷積，提出了D-FPN；結合提出的Depthwise dense

2020-06-12 18:24:34

矩陣跡運算

2020-02-21 03:05:42

自編碼器（auto-encoder）介紹

2020-02-21 03:05:42

爲什麼交叉熵損失可以提高具有sigmoid和softmax輸出的模型的性能，而使用均方誤差損失則會存在很多問題

2020-02-21 03:05:42

如何解決過擬合和欠擬合

你吃过卤汁牛肉吗

2019-08-05 22:16:30

24小時熱門文章

最新文章

最新評論文章