參考:https://blog.csdn.net/zhaojc1995/article/details/80572098
1,rnn在時間層面上會存在梯度消失,原因是由於sigmoid和tan的導數都小於一導致。即使使用relu,則可能會遇到梯度爆炸問題。且過大的步長會導致學死,因爲一旦全部爲0則無法翻過來。
sigmoid導數值範圍爲(0,0.25],反向傳播時會導致“梯度消失“。tanh函數導數值範圍【0,1】,相對好一點。
sigmoid函數不是0中心對稱,tanh函數是,可以使網絡收斂的更好。
2,LSTM比rnn多了一個輸出,即使cell的長期狀態。而rnn的狀態可以認爲是短期的狀態。