本文是Deep Learning 之 最優化方法系列文章的Nesterov(牛頓動量)方法。主要參考Deep Learning 一書。
整個優化系列文章列表:
Deep Learning 最優化方法之Momentum(動量)
先上結論:
1.Nesterov是Momentum的變種。
2.與Momentum唯一區別就是,計算梯度的不同,Nesterov先用當前的速度v更新一遍參數,在用更新的臨時參數計算梯度。
3.相當於添加了矯正因子的Momentum。
4.在GD下,Nesterov將誤差收斂從O(1/k),改進到O(1/k^2)
5.然而在SGD下,Nesterov並沒有任何改進
具體算法如下所示: