深入理解RNN梯度消失

1.關於理解RNN梯度消失

內容轉載於:知乎-RNN梯度消失和爆炸的原因.

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

2.梯度消失,權值就無法更新了嗎?

No.梯度消失不意味着沒有梯度

我們先看任意時刻 t 對權重 wxw_x求導公式:
加粗樣式
請注意紅圈這是一個求和符號,即使 t 是一個很大的數,但是第公式第t 項基本不受影響,仍然是一個比較大的數值。所以即使層數深,梯度也不小,網絡參數仍然能夠更新。
再聯想RNN參數共享機制,即使層數再深網絡權重仍然能夠更新。

3.那爲什麼我們在訓練是重要要避免梯度消失

這個問題題主目前仍然沒有完全理解。但是題主有一個不太肯定的答案。
我們還是從公式說起:
在這裏插入圖片描述
注意紅圈部分:
我們都知道不管層數多深,紅圈中第一項的值一定是不受層數多少的影響,但是除第一項以外所有層都或多或少受到影響.
我們考慮比較極端的情況公式中除了第一項之外全爲0。那意味着RNN網絡中前面部分的輸入沒有對網絡參數更新產生影響,之後最後一次輸入纔會影響網絡參數更新。所以梯度消失不是不能更新參數,而是導致RNN前面的輸入無法有效的影響網絡參數。
所以我們在使用網絡時要要避免梯度消失。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章