優化方法，一些重要參數learning rate,weight decay,momentum,learing rate decay

http://blog.csdn.net/lien0906/article/details/47399823

http://blog.csdn.net/u014114990/article/details/47779111

Stochastic Gradient Descent (SGD)

SGD的參數

在使用隨機梯度下降（SGD）的學習方法時，一般來說有以下幾個可供調節的參數:

Learning Rate 學習率
Weight Decay 權值衰減
Momentum 動量
Learning Rate Decay 學習率衰減

再此之中只有第一的參數（Learning Rate）是必須的，其餘部分都是爲了提高自適應性的參數，也就是說後3個參數不需要時可以設爲0。

Learning Rate

學習率決定了權值更新的速度，設置得太大會使結果越過最優值，太小會使下降速度過慢。僅靠人爲干預調整參數需要不斷修改學習率，因此後面3種參數都是基於自適應的思路提出的解決方案。

SGD優缺點

實現簡單，當訓練樣本足夠多時優化速度非常快
需要人爲調整很多參數，比如學習率，收斂準則等

Averaged Stochastic Gradient Descent (ASGD)

在SGD的基礎上計算了權值的平均值。
$$\bar{w}t=\frac{1}{t-t_0}\sum^t{i=t_0+1} w_t$$

ASGD的參數

在SGD的基礎上增加參數$t_0$

學習率 $\eta$
參數 $t_0$

ASGD優缺點

運算花費和second order stochastic gradient descent (2SGD)一樣小。
比SGD的訓練速度更爲緩慢。
$t_0$的設置十分困難

3. Conjugate Gradient（共軛梯度法）

介於最速下降法與牛頓法之間的一個方法，它僅僅需要利用一階導數的信息，克服了GD方法收斂慢的特點。

Link 1

Limited-memory Broyden-Fletcher-Goldfarb-Shanno (LBFGS) (一種擬牛頓算法)

L-BFGS算法比較適合在大規模的數值計算中，具備牛頓法收斂速度快的特點，但不需要牛頓法那樣存儲Hesse矩陣，因此節省了大量的空間以及計算資源。

Link 1
Link 2
Link 3

應用分析

不同的優化算法有不同的優缺點，適合不同的場合:

LBFGS算法在參數的維度比較低（一般指小於10000維）時的效果要比SGD（隨機梯度下降）和CG（共軛梯度下降）效果好，特別是帶有convolution的模型。
針對高維的參數問題，CG的效果要比另2種好。也就是說一般情況下，SGD的效果要差一些，這種情況在使用GPU加速時情況一樣，即在GPU上使用LBFGS和CG時，優化速度明顯加快，而SGD算法優化速度提高很小。
在單核處理器上，LBFGS的優勢主要是利用參數之間的2階近視特性來加速優化，而CG則得得益於參數之間的共軛信息，需要計算器Hessian矩陣。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

優化方法，一些重要參數learning rate,weight decay,momentum,learing rate decay

http://blog.csdn.net/lien0906/article/details/47399823

Stochastic Gradient Descent (SGD)

SGD的參數

Learning Rate

SGD優缺點

Averaged Stochastic Gradient Descent (ASGD)

ASGD的參數

ASGD優缺點

3. Conjugate Gradient（共軛梯度法）

Limited-memory Broyden-Fletcher-Goldfarb-Shanno (LBFGS) (一種擬牛頓算法)

應用分析

CV大牛部分表格

Deep Learning方向的paper整理(1)

機器學習資料收集（持續更新）--書籍--個人主頁

機器學習的學習資源--入門書-進階書-入門視頻-繼續閱讀推薦

Eeeplearning-正則化方法--L1和L2 regularization、數據集擴增、dropout

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結