recurrent neural netword,lstm學習記錄

參考:https://blog.csdn.net/zhaojc1995/article/details/80572098

1,rnn在時間層面上會存在梯度消失,原因是由於sigmoid和tan的導數都小於一導致。即使使用relu,則可能會遇到梯度爆炸問題。且過大的步長會導致學死,因爲一旦全部爲0則無法翻過來。

sigmoid導數值範圍爲(0,0.25],反向傳播時會導致“梯度消失“。tanh函數導數值範圍【0,1】,相對好一點。 
sigmoid函數不是0中心對稱,tanh函數是,可以使網絡收斂的更好。

2,LSTM比rnn多了一個輸出,即使cell的長期狀態。而rnn的狀態可以認爲是短期的狀態。

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章