引起這種問題的根本原因是Hessian矩陣的病態條件數
1、對學習率乘上一個參數(0.99或者0.999)使得學習率隨着學習步驟的進行而下降
2、另一種辦法就是採用現成的優化算法。
參考鏈接:https://www.zhihu.com/question/60510992
引起這種問題的根本原因是Hessian矩陣的病態條件數
1、對學習率乘上一個參數(0.99或者0.999)使得學習率隨着學習步驟的進行而下降
2、另一種辦法就是採用現成的優化算法。
參考鏈接:https://www.zhihu.com/question/60510992