—————整理自DeepLearning chapter8,主要是方便做算法的對比。
1.基礎算法
1.1 隨機梯度下降(SGD,Stochastic Gradient Descent)
隨機梯度下降可以通過從數據生成分佈中獨立地抽取的m個樣本組成的minibatch的平均梯度來無偏地估計梯度。
還有很多其他的點,比如SGD的收斂條件等,詳情請參考原書。
1.2 動量SGD(SGD with momentum)
動量方法的提出至少在1964年,與原SGD相比,主要區別在於添加了速度v。
1.3 Nesterov動量SGD(SGD with Nesterov momentum)
Nesterov Momentum是2013年提出來的。
2.自適應學習率算法(Algorithms with Adaptive Learning Rates)
2.1.AdaGrad
2011年提出的,控制梯度方便有所創新。
2.2.RMSProp
RMSProp算法(Hinton,2012)通過將梯度累積更改爲指數加權移動平均值,改進AdaGrad以使它在0非凸設置中表現更好。
還有添加動量因素的RMSP算法:
2.3.Adam
2014年提出,“Adam”源自“adaptive moments”。
3.二階優化算法
3.1 牛頓法(Newton’s Method)
牛頓法是最常用的二階優化算法。