Question
爲什麼要避免梯度消失?當前層的loss的在對權值矩陣(注意:每個時刻的權值矩陣是相同的)求導時,由於鏈式法則,得到的是一個求和項,其中每一項對應與前面一層對權值矩陣的求導,而在rnn中梯度消失是指求和項中當前層較遠的關於權值矩陣的梯度爲0,但這不會導致該求和項爲0呀!
而我理解的gradient vanishing是指權值矩陣不會變化。
爲什麼要避免梯度消失?當前層的loss的在對權值矩陣(注意:每個時刻的權值矩陣是相同的)求導時,由於鏈式法則,得到的是一個求和項,其中每一項對應與前面一層對權值矩陣的求導,而在rnn中梯度消失是指求和項中當前層較遠的關於權值矩陣的梯度爲0,但這不會導致該求和項爲0呀!
而我理解的gradient vanishing是指權值矩陣不會變化。
Lecture 5 講的是 Course Note 9 裏面的內容,建議先聽 Lecture 6和7,然後Lecture 5和9一起聽。Lecture 5 鏈接