recurrent neural netword,lstm學習記錄

原創

2018-11-13 22:23

參考：https://blog.csdn.net/zhaojc1995/article/details/80572098

1，rnn在時間層面上會存在梯度消失，原因是由於sigmoid和tan的導數都小於一導致。即使使用relu，則可能會遇到梯度爆炸問題。且過大的步長會導致學死，因爲一旦全部爲0則無法翻過來。

sigmoid導數值範圍爲(0,0.25]，反向傳播時會導致“梯度消失“。tanh函數導數值範圍【0，1】，相對好一點。
sigmoid函數不是0中心對稱，tanh函數是，可以使網絡收斂的更好。

2,LSTM比rnn多了一個輸出，即使cell的長期狀態。而rnn的狀態可以認爲是短期的狀態。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

24小時熱門文章

最新文章

最新評論文章