1.10 梯度消失與梯度爆炸
在深層網絡中,對於指數運算,很容易出現數值過大或過小,分別對應梯度爆炸和梯度減小
1.11 深度網絡的權重初始化
通過在初始化權重時進行適當調整(如,隨機數乘以上層節點數的倒數的平方根),可以減輕梯度爆炸或梯度消失
1.12 梯度的數值逼近
數值逼近(數值解)求導可用於檢查梯度計算是否正確
雙邊數值逼近(two sided numerical approximations)的精度要高於單邊逼近
1.13 梯度檢驗
將所有參數重排(reshape、拉平)後連接成一個大向量θ
檢查J(θ)的數值解導數是否足夠接近解析解導數d(θ)(反向傳播中的導數),如果不夠接近,說明算法可能有bug