Deep Learning 最優化方法之Nesterov(牛頓動量)

本文是Deep Learning 之 最優化方法系列文章的Nesterov(牛頓動量)方法。主要參考Deep Learning 一書。

整個優化系列文章列表:

Deep Learning 之 最優化方法

Deep Learning 最優化方法之SGD

Deep Learning 最優化方法之Momentum(動量)

Deep Learning 最優化方法之Nesterov(牛頓動量)

Deep Learning 最優化方法之AdaGrad

Deep Learning 最優化方法之RMSProp

Deep Learning 最優化方法之Adam

先上結論:

1.Nesterov是Momentum的變種。

2.與Momentum唯一區別就是,計算梯度的不同,Nesterov先用當前的速度v更新一遍參數,在用更新的臨時參數計算梯度。

3.相當於添加了矯正因子的Momentum。

4.在GD下,Nesterov將誤差收斂從O(1/k),改進到O(1/k^2)

5.然而在SGD下,Nesterov並沒有任何改進

具體算法如下所示:
這裏寫圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章