Nesterov

1. 簡介

Nesterov 加速梯度算法是一種對 Momentum 動量法的改進。

2. 原理

t 次迭代時:\hat{\boldsymbol{W}}_t = \boldsymbol{W}_{t-1} + \alpha \Delta \boldsymbol{W}_{t-1} \\ \boldsymbol{W}_t = \hat{\boldsymbol{W}_{t}} - \eta \frac{\partial L}{\partial \hat{\boldsymbol{W}}_t} 其中,\boldsymbol{W} 爲需要更新的參數,L 爲損失函數,\frac{\partial L}{\partial \hat{\boldsymbol{W}}}L 關於 \hat{\boldsymbol{W}} 的梯度,\eta 爲學習率,\alpha 爲動量因子,通常設爲 0.9

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章