引起这种问题的根本原因是Hessian矩阵的病态条件数
1、对学习率乘上一个参数(0.99或者0.999)使得学习率随着学习步骤的进行而下降
2、另一种办法就是采用现成的优化算法。
参考链接:https://www.zhihu.com/question/60510992
引起这种问题的根本原因是Hessian矩阵的病态条件数
1、对学习率乘上一个参数(0.99或者0.999)使得学习率随着学习步骤的进行而下降
2、另一种办法就是采用现成的优化算法。
参考链接:https://www.zhihu.com/question/60510992