Question
为什么要避免梯度消失?当前层的loss的在对权值矩阵(注意:每个时刻的权值矩阵是相同的)求导时,由于链式法则,得到的是一个求和项,其中每一项对应与前面一层对权值矩阵的求导,而在rnn中梯度消失是指求和项中当前层较远的关于权值矩阵的梯度为0,但这不会导致该求和项为0呀!
而我理解的gradient vanishing是指权值矩阵不会变化。
为什么要避免梯度消失?当前层的loss的在对权值矩阵(注意:每个时刻的权值矩阵是相同的)求导时,由于链式法则,得到的是一个求和项,其中每一项对应与前面一层对权值矩阵的求导,而在rnn中梯度消失是指求和项中当前层较远的关于权值矩阵的梯度为0,但这不会导致该求和项为0呀!
而我理解的gradient vanishing是指权值矩阵不会变化。
Lecture 5 講的是 Course Note 9 裏面的內容,建議先聽 Lecture 6和7,然後Lecture 5和9一起聽。Lecture 5 鏈接