lecture10,Recurrent Neural Network

Question

爲什麼要避免梯度消失?當前層的loss的在對權值矩陣(注意:每個時刻的權值矩陣是相同的)求導時,由於鏈式法則,得到的是一個求和項,其中每一項對應與前面一層對權值矩陣的求導,而在rnn中梯度消失是指求和項中當前層較遠的關於權值矩陣的梯度爲0,但這不會導致該求和項爲0呀!
而我理解的gradient vanishing是指權值矩陣不會變化。

發佈了57 篇原創文章 · 獲贊 4 · 訪問量 2萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章