上文提到，到目前爲止，caffe總共提供了六種優化方法：

Stochastic Gradient Descent (type: "SGD"),
AdaDelta (type: "AdaDelta"),
Adaptive Gradient (type: "AdaGrad"),
Adam (type: "Adam"),
Nesterov’s Accelerated Gradient (type: "Nesterov") and
RMSprop (type: "RMSProp")

Solver就是用來使loss最小化的優化方法。對於一個數據集D，需要優化的目標函數是整個數據集中所有數據loss的平均值。

其中，f_W(x⁽ⁱ⁾)計算的是數據x⁽ⁱ⁾上的loss, 先將每個單獨的樣本x的loss求出來，然後求和，最後求均值。 r(W)是正則項（weight_decay)，爲了減弱過擬合現象。

如果採用這種Loss 函數，迭代一次需要計算整個數據集，在數據集非常大的這情況下，這種方法的效率很低，這個也是我們熟知的梯度下降採用的方法。

在實際中，通過將整個數據集分成幾批（batches), 每一批就是一個mini-batch，其數量（batch_size)爲N<<|D|，此時的loss 函數爲：

有了loss函數後，就可以迭代的求解loss和梯度來優化這個問題。在神經網絡中，用forward pass來求解loss，用backward pass來求解梯度。

在caffe中，默認採用的Stochastic Gradient Descent（SGD）進行優化求解。後面幾種方法也是基於梯度的優化方法（like SGD），因此本文只介紹一下SGD。其它的方法，有興趣的同學，可以去看文獻原文。

1、Stochastic gradient descent（SGD)

隨機梯度下降（Stochastic gradient descent）是在梯度下降法（gradient descent）的基礎上發展起來的，梯度下降法也叫最速下降法，具體原理在網易公開課《機器學習》中，吳恩達教授已經講解得非常詳細。SGD在通過負梯度和上一次的權重更新值V_t的線性組合來更新W，迭代公式如下：

其中，是負梯度的學習率(base_lr)，是上一次梯度值的權重（momentum），用來加權之前梯度方向對現在梯度下降方向的影響。這兩個參數需要通過tuning來得到最好的結果，一般是根據經驗設定的。如果你不知道如何設定這些參數，可以參考相關的論文。

在深度學習中使用SGD，比較好的初始化參數的策略是把學習率設爲0.01左右（base_lr: 0.01)，在訓練的過程中，如果loss開始出現穩定水平時，對學習率乘以一個常數因子（gamma），這樣的過程重複多次。

對於momentum，一般取值在0.5--0.99之間。通常設爲0.9，momentum可以讓使用SGD的深度學習方法更加穩定以及快速。

關於更多的momentum，請參看Hinton的《A Practical Guide to Training Restricted Boltzmann Machines》。

實例：

base_lr: 0.01 
lr_policy: "step"
gamma: 0.1   
stepsize: 1000  
max_iter: 3500 
momentum: 0.9

lr_policy設置爲step,則學習率的變化規則爲 base_lr * gamma ^ (floor(iter / stepsize))

即前1000次迭代，學習率爲0.01; 第1001-2000次迭代，學習率爲0.001; 第2001-3000次迭代，學習率爲0.00001，第3001-3500次迭代，學習率爲10^-5

上面的設置只能作爲一種指導，它們不能保證在任何情況下都能得到最佳的結果，有時候這種方法甚至不work。如果學習的時候出現diverge（比如，你一開始就發現非常大或者NaN或者inf的loss值或者輸出），此時你需要降低base_lr的值（比如，0.001），然後重新訓練，這樣的過程重複幾次直到你找到可以work的base_lr。

2、AdaDelta

AdaDelta是一種”魯棒的學習率方法“，是基於梯度的優化方法（like SGD）。

具體的介紹文獻：

M. Zeiler ADADELTA: AN ADAPTIVE LEARNING RATE METHOD. arXiv preprint, 2012.

示例：

net: "examples/mnist/lenet_train_test.prototxt"
test_iter: 100
test_interval: 500
base_lr: 1.0
lr_policy: "fixed"
momentum: 0.95
weight_decay: 0.0005
display: 100
max_iter: 10000
snapshot: 5000
snapshot_prefix: "examples/mnist/lenet_adadelta"
solver_mode: GPU
type: "AdaDelta"
delta: 1e-6

從最後兩行可看出，設置solver type爲Adadelta時，需要設置delta的值。

3、AdaGrad

自適應梯度（adaptive gradient）是基於梯度的優化方法（like SGD）

具體的介紹文獻：

Duchi, E. Hazan, and Y. Singer. Adaptive Subgradient Methods for Online Learning and Stochastic Optimization. The Journal of Machine Learning Research, 2011.

示例：

net: "examples/mnist/mnist_autoencoder.prototxt"
test_state: { stage: 'test-on-train' }
test_iter: 500
test_state: { stage: 'test-on-test' }
test_iter: 100
test_interval: 500
test_compute_loss: true
base_lr: 0.01
lr_policy: "fixed"
display: 100
max_iter: 65000
weight_decay: 0.0005
snapshot: 10000
snapshot_prefix: "examples/mnist/mnist_autoencoder_adagrad_train"
# solver mode: CPU or GPU
solver_mode: GPU
type: "AdaGrad"

4、Adam

是一種基於梯度的優化方法（like SGD）。

具體的介紹文獻：

D. Kingma, J. Ba. Adam: A Method for Stochastic Optimization. International Conference for Learning Representations, 2015.

5、NAG

Nesterov 的加速梯度法（Nesterov’s accelerated gradient）作爲凸優化中最理想的方法，其收斂速度非常快。

具體的介紹文獻：

I. Sutskever, J. Martens, G. Dahl, and G. Hinton. On the Importance of Initialization and Momentum in Deep Learning. Proceedings of the 30th International Conference on Machine Learning, 2013.

示例：

net: "examples/mnist/mnist_autoencoder.prototxt"
test_state: { stage: 'test-on-train' }
test_iter: 500
test_state: { stage: 'test-on-test' }
test_iter: 100
test_interval: 500
test_compute_loss: true
base_lr: 0.01
lr_policy: "step"
gamma: 0.1
stepsize: 10000
display: 100
max_iter: 65000
weight_decay: 0.0005
snapshot: 10000
snapshot_prefix: "examples/mnist/mnist_autoencoder_nesterov_train"
momentum: 0.95
# solver mode: CPU or GPU
solver_mode: GPU
type: "Nesterov"

6、RMSprop

RMSprop是Tieleman在一次 Coursera課程演講中提出來的，也是一種基於梯度的優化方法（like SGD）

具體的介紹文獻：

T. Tieleman, and G. Hinton. RMSProp: Divide the gradient by a running average of its recent magnitude. COURSERA: Neural Networks for Machine Learning.Technical report, 2012.

示例：

net: "examples/mnist/lenet_train_test.prototxt"
test_iter: 100
test_interval: 500
base_lr: 1.0
lr_policy: "fixed"
momentum: 0.95
weight_decay: 0.0005
display: 100
max_iter: 10000
snapshot: 5000
snapshot_prefix: "examples/mnist/lenet_adadelta"
solver_mode: GPU
type: "RMSProp"
rms_decay: 0.98

最後兩行，需要設置rms_decay值。

SGD

[java] view plain copy
x+= -learning_rate*dx  

Momentum

Momentum可以使SGD不至於陷入局部鞍點震盪，同時起到一定加速作用。
Momentum最開始有可能會偏離較遠(overshooting the target)，但是通常會慢慢矯正回來。

[java] view plain copy
v = mu*v - learning_rate*dx  
x+= v  

Nesterov momentum

基本思路是每次不在x位置求dx，而是在x+mu*v處更新dx，然後在用動量公式進行計算
相當於每次先到動量的位置，然後求梯度更新
vt=μvt?1?ε▽f(θt?1+μvt?1)
θt=θt?1+vt
計算▽f(θt?1+μvt?1)不太方便，做如下變量替換：?t?1=θt?1+μvt?1 ，並帶回上述公式可以得到
vt=μvt?1+ε▽f(?t?1)
?t?1=?t?1?μvt?1+(1+μ)vt

[java] view plain copy
v_prev = v  
v = mu*v-learning_rate*dx  
x += -mu*v_prev+(1+mu)*v   

AdaGrad

使用每個變量的歷史梯度值累加作爲更新的分母，起到平衡不同變量梯度數值差異過大的問題

[java] view plain copy
cache += dx**2  
x += -learning_rate*dx/(np.sqrt(cache)+1e-7)  

RMSProp

在AdaGrad基礎上加入了decay factor，防止歷史梯度求和過大

[java] view plain copy
cache = decay_rate*cache + (1-decay_rate)*dx**2  
x += -learning_rate*dx/(np.sqrt(cache)+1e-7)  

ADAM

初始版本：類似於加入動量的RMSProp

[java] view plain copy
m = beta1*m + (1-beta1)*dx  
v = beta2*v + (1-beta2)*(dx**2)  
x += -learning_rate*m / (np.sqrt(v)+1e-7)  

真實的更新算法如下：

[java] view plain copy
m = beta1*m + (1-beta1)*dx  
v = beta2*v + (1-beta2)*(dx**2)  
mb = m/(1-beta1**t)   # t is step number  
vb = v/(1-beta2**t)  
x += -learning_rate*mb / (np.sqrt(vb)+1e-7)  

mb和vb起到最開始的時候warm up作用，t很大之後(1-beta1**t) =1

Second Order optimization methods

second-order taylor expansion:
J(θ)≈J(θ0)+(θ?theta0)T+12(θ?θ0)TH(θ?θ0)
θ?=θ0?H?1▽θJ(θ0)

Quasi_newton methods (BFGS) with approximate inverse Hessian matrix L-BFGS (limited memory BFGS)
Does not form/store the full inverse Hessian.
Usually works very well in full batch, deterministic mode

實際經驗

ADAM通常會取得比較好的結果，同時收斂非常快相比SGD L-BFGS適用於全batch做優化的情況有時候可以多種優化方法同時使用，比如使用SGD進行warm up，然後ADAM 對於比較奇怪的需求，deepbit兩個loss的收斂需要進行控制的情況，比較慢的SGD比較適用

tensorflow 不同優化算法對應的參數

SGD

optimizer = tf.train.GradientDescentOptimizer(learning_rate=self.learning_rate)

Momentum

optimizer = tf.train.MomentumOptimizer(lr, 0.9)

AdaGrad

optimizer = tf.train.AdagradientOptimizer(learning_rate=self.learning_rate)

RMSProp

optimizer = tf.train.RMSPropOptimizer(0.001, 0.9)

ADAM

optimizer = tf.train.AdamOptimizer(learning_rate=self.learning_rate, epsilon=1e-08)

部分局部參數需要查找tensorflow官方文檔

直接進行優化
train_op = optimizer.minimize(loss)
獲得提取進行截斷等處理
gradients, v = zip(*optimizer.compute_gradients(loss))
gradients, _ = tf.clip_by_global_norm(gradients, self.max_gradient_norm)
train_op = optimizer.apply_gradients(zip(gradients, v), global_step=self.global_step)

Caffe 不同優化算法參數

caffe的優化需要在solver.prototxt中指定相應的參數

type代表的是優化算法

比較坑的是不同的版本之間type會有變化(ADAM or Adam)，需要看具體代碼
* Stochastic Gradient Descent (type: “SGD”),
* AdaDelta (type: “AdaDelta”),
* Adaptive Gradient (type: “AdaGrad”),
* Adam (type: “Adam”),
* Nesterov’s Accelerated Gradient (type: “Nesterov”) and
* RMSprop (type: “RMSProp”)

SGD

[java] view plain copy
base_lr: 0.01   
lr_policy: "step"    # 也可以使用指數，多項式等等  
gamma: 0.1     
stepsize: 1000    
max_iter: 3500   
momentum: 0.9  

AdaDelta

[java] view plain copy
net: "examples/mnist/lenet_train_test.prototxt"  
test_iter: 100  
test_interval: 500  
base_lr: 1.0  
lr_policy: "fixed"  
momentum: 0.95  
weight_decay: 0.0005  
display: 100  
max_iter: 10000  
snapshot: 5000  
snapshot_prefix: "examples/mnist/lenet_adadelta"  
solver_mode: GPU  
type: "AdaDelta"  
delta: 1e-6  

AdaGrad

[java] view plain copy
net: "examples/mnist/mnist_autoencoder.prototxt"  
test_state: { stage: &#39;test-on-train&#39; }  
test_iter: 500  
test_state: { stage: &#39;test-on-test&#39; }  
test_iter: 100  
test_interval: 500  
test_compute_loss: true  
base_lr: 0.01  
lr_policy: "fixed"  
display: 100  
max_iter: 65000  
weight_decay: 0.0005  
snapshot: 10000  
snapshot_prefix: "examples/mnist/mnist_autoencoder_adagrad_train"  
# solver mode: CPU or GPU  
solver_mode: GPU  
type: "AdaGrad"  

Nesterov

[java] view plain copy
base_lr: 0.01  
lr_policy: "step"  
gamma: 0.1  
weight_decay: 0.0005  
momentum: 0.95  
type: "Nesterov"  

ADAM

[java] view plain copy
train_net: "nin_train_val.prototxt"  
base_lr: 0.001  
###############  
##### step:base_lr * gamma ^ (floor(iter / stepsize))  
#lr_policy: "step"  
#gamma: 0.1  
#stepsize: 25000  
##### multi-step:  
#lr_policy: "multistep"  
#gamma: 0.5  
#stepvalue: 1000  
#stepvalue: 2000  
#stepvalue: 3000  
#stepvalue: 4000  
#stepvalue: 5000  
#stepvalue: 10000  
#stepvalue: 20000  
###### inv:base_lr * (1 + gamma * iter) ^ (- power)  
# lr_policy: "inv"  
# gamma: 0.0001  
# power: 2  
##### exp:base_lr * gamma ^ iter  
# lr_policy: "exp"  
# gamma: 0.9  
##### poly:base_lr (1 - iter/max_iter) ^ (power)  
# lr_policy: "poly"  
# power: 0.9  
##### sigmoid:base_lr ( 1/(1 + exp(-gamma * (iter - stepsize))))  
# lr_policy: "sigmoid"  
# gamma: 0.9  
#momentum: 0.9  
solver_type: ADAM  
momentum: 0.9  
momentum2: 0.999  
delta: 1e-8  
lr_policy: "fixed"  
  
display: 100  
max_iter: 50000  
weight_decay: 0.0005  
snapshot: 5000  
snapshot_prefix: "./stage1/sgd_DeepBit1024_alex_stage1"  
solver_mode: GPU  

RMSProp

[java] view plain copy
net: "examples/mnist/lenet_train_test.prototxt"  
test_iter: 100  
test_interval: 500  
base_lr: 1.0  
lr_policy: "fixed"  
momentum: 0.95  
weight_decay: 0.0005  
display: 100  
max_iter: 10000  
snapshot: 5000  
snapshot_prefix: "examples/mnist/lenet_adadelta"  
solver_mode: GPU  
type: "RMSProp"  
rms_decay: 0.98  

深度學習caffe:最優化方法

SGD

Momentum

Nesterov momentum

AdaGrad

RMSProp

ADAM

Second Order optimization methods

實際經驗

tensorflow 不同優化算法對應的參數

SGD

Momentum

AdaGrad

RMSProp

ADAM

Caffe 不同優化算法參數

type代表的是優化算法

SGD

AdaDelta

AdaGrad

Nesterov

ADAM

RMSProp

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

挑戰程序設計競賽 2.3章習題 poj 3046 Ant Counting

Shell/Python中的用戶名獲取

datetime庫日期與時間

分詞算法綜述

文本相似度計算-度量方法

tensorflow之遷移學習利用自帶keras訓練MobileNetV2分類模型

Ubuntu 16.04 上 CUDA_10.0及cuDNN的安裝

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結