深度學習經典優化算法-公式彙總

—————整理自DeepLearning chapter8,主要是方便做算法的對比。

1.基礎算法

1.1 隨機梯度下降(SGD,Stochastic Gradient Descent)

隨機梯度下降可以通過從數據生成分佈中獨立地抽取的m個樣本組成的minibatch的平均梯度來無偏地估計梯度。
還有很多其他的點,比如SGD的收斂條件等,詳情請參考原書。
在這裏插入圖片描述

1.2 動量SGD(SGD with momentum)

動量方法的提出至少在1964年,與原SGD相比,主要區別在於添加了速度v。
在這裏插入圖片描述

1.3 Nesterov動量SGD(SGD with Nesterov momentum)

Nesterov Momentum是2013年提出來的。
在這裏插入圖片描述

2.自適應學習率算法(Algorithms with Adaptive Learning Rates)

2.1.AdaGrad

2011年提出的,控制梯度方便有所創新。
在這裏插入圖片描述

2.2.RMSProp

RMSProp算法(Hinton,2012)通過將梯度累積更改爲指數加權移動平均值,改進AdaGrad以使它在0非凸設置中表現更好。
在這裏插入圖片描述還有添加動量因素的RMSP算法:
在這裏插入圖片描述

2.3.Adam

2014年提出,“Adam”源自“adaptive moments”。
在這裏插入圖片描述

3.二階優化算法

3.1 牛頓法(Newton’s Method)

牛頓法是最常用的二階優化算法。
在這裏插入圖片描述

3.2 共軛梯度法(Conjugate Gradients)

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章