深度學習優化方法

深度學習最全優化方法總結比較（SGD，Adagrad，Adadelta，Adam，Adamax，Nadam）

轉載自：https://zhuanlan.zhihu.com/p/22252270

SGD
此處的SGD指mini-batch gradient descent，關於batch gradient descent, stochastic gradient descent, 以及 mini-batch gradient descent的具體區別就不細說了。現在的SGD一般都指mini-batch gradient descent。

SGD就是每一次迭代計算mini-batch的梯度，然後對參數進行更新，是最常見的優化方法了。即：

g_{t} = \nabla_{θ_{t - 1}} f (θ_{t - 1})

Δ θ_{t} = - η * g_{t}

其中，

η

是學習率，

g_{t}

是梯度

SGD完全依賴於當前batch的梯度，所以\eta可理解爲允許當前batch的梯度多大程度影響參數更新

缺點：（正因爲有這些缺點才讓這麼多大神發展出了後續的各種算法）

選擇合適的learning rate比較困難
- 對所有的參數更新使用同樣的learning rate。對於稀疏數據或者特徵，有時我們可能想更新快一些對於不經常出現的特徵，對於常出現的特徵更新慢一些，這時候SGD就不太能滿足要求了

SGD容易收斂到局部最優，並且在某些情況下可能被困在鞍點【原來寫的是“容易困於鞍點”，經查閱論文發現，其實在合適的初始化和step size的情況下，鞍點的影響並沒這麼大。感謝@冰橙的指正】

Momentum
momentum是模擬物理裏動量的概念，積累之前的動量來替代真正的梯度。公式如下：

m_{t} = μ * m_{t - 1} + g_{t}

Δ θ_{t} = - η * m_{t}

其中，

μ

是動量因子

特點：

下降初期時，使用上一次參數更新，下降方向一致，乘上較大的 $μ$ 能夠進行很好的加速
下降中後期時，在局部最小值來回震盪的時候， $g r a d i e n t \to 0 ， μ$ 使得更新幅度增大，跳出陷阱
在梯度改變方向的時候， $μ$ 能夠減少更新

總而言之，momentum項能夠在相關方向加速SGD，抑制振盪，從而加快收斂

Nesterov
nesterov項在梯度更新時做一個校正，避免前進太快，同時提高靈敏度。
將上一節中的公式展開可得：

Δ θ_{t} = - η * μ * m_{t - 1} - η * g_{t}

可以看出，

m_{t - 1}

並沒有直接改變當前梯度

g_{t}

，所以Nesterov的改進就是讓之前的動量直接影響當前的動量。即：

g_{t} = \nabla_{θ_{t - 1}} f (θ_{t - 1} - η * μ * m_{t - 1})

m_{t} = μ * m_{t - 1} + g_{t}

Δ θ_{t} = - η * m_{t}

所以，加上nesterov項後，梯度在大的跳躍後，進行計算對當前梯度進行校正。如下圖：

momentum首先計算一個梯度(短的藍色向量)，然後在加速更新梯度的方向進行一個大的跳躍(長的藍色向量)，nesterov項首先在之前加速的梯度方向進行一個大的跳躍(棕色向量)，計算梯度然後進行校正(綠色梯向量)

其實，momentum項和nesterov項都是爲了使梯度更新更加靈活，對不同情況有針對性。但是，人工設置一些學習率總還是有些生硬，接下來介紹幾種自適應學習率的方法

Adagrad
Adagrad其實是對學習率進行了一個約束。即：

n_{t} = n_{t - 1} + g_{t}^{2}

Δ θ_{t} = - \frac{η}{\sqrt{n_{t} + ϵ}} * g_{t}

此處，對

g_{t}

從1到t進行一個遞推形成一個約束項

r e g u l a r i z e r ， - \frac{1}{\sqrt{\sum_{r = 1}^{t} (g_{r})^{2} + ϵ}} ， ϵ

用來保證分母非0

特點：

前期 $g_{t}$ 較小的時候， regularizer較大，能夠放大梯度
後期 $g_{t}$ 較大的時候，regularizer較小，能夠約束梯度
適合處理稀疏梯度

缺點：
由公式可以看出，仍依賴於人工設置一個全局學習率
$η$ 設置過大的話，會使 $r e g u l a r i z e r$ 過於敏感，對梯度的調節太大
中後期，分母上梯度平方的累加將會越來越大，使gradient\to0，使得訓練提前結束

Adadelta
Adadelta是對Adagrad的擴展，最初方案依然是對學習率進行自適應約束，但是進行了計算上的簡化。
Adagrad會累加之前所有的梯度平方，而Adadelta只累加固定大小的項，並且也不直接存儲這些項，僅僅是近似計算對應的平均值。即：

n_{t} = ν * n_{t - 1} + (1 - ν) * g_{t}^{2}

Δ θ_{t} = - \frac{η}{\sqrt{n_{t} + ϵ}} * g_{t}

在此處Adadelta其實還是依賴於全局學習率的，但是作者做了一定處理，經過近似牛頓迭代法之後：

E | g^{2} |_{t} = ρ * E | g^{2} |_{t - 1} + (1 - ρ) * g_{t}^{2}

Δ x_{t} = - \frac{\sqrt{\sum_{r = 1}^{t - 1} Δ x_{r}}}{\sqrt{E | g^{2} |_{t} + ϵ}}

其中，E代表求期望。

此時，可以看出Adadelta已經不用依賴於全局學習率了。

特點：

訓練初中期，加速效果不錯，很快
訓練後期，反覆在局部最小值附近抖動

RMSprop
RMSprop可以算作Adadelta的一個特例：

當 $ρ = 0.5$ 時， $E | g^{2} |_{t} = ρ * E | g^{2} |_{t - 1} + (1 - ρ) * g_{t}^{2}$ 就變爲了求梯度平方和的平均數。

如果再求根的話，就變成了RMS(均方根)：

$R M S | g |_{t} = \sqrt{E | g^{2} |_{t} + ϵ}$
此時，這個RMS就可以作爲學習率\eta的一個約束：

$Δ x_{t} = - \frac{η}{R M S | g |_{t}} * g_{t}$
特點：

其實RMSprop依然依賴於全局學習率
RMSprop算是Adagrad的一種發展，和Adadelta的變體，效果趨於二者之間
適合處理非平穩目標
- 對於RNN效果很好

Adam
Adam(Adaptive Moment Estimation)本質上是帶有動量項的RMSprop，它利用梯度的一階矩估計和二階矩估計動態調整每個參數的學習率。Adam的優點主要在於經過偏置校正後，每一次迭代學習率都有個確定範圍，使得參數比較平穩。公式如下：

m_{t} = μ * m_{t - 1} + (1 - μ) * g_{t}

n_{t} = ν * n_{t - 1} + (1 - ν) * g_{t}^{2}

\hat{m_{t}} = \frac{m_{t}}{1 - μ^{t}}

\hat{n_{t}} = \frac{n_{t}}{1 - ν^{t}}

Δ θ_{t} = - \frac{\hat{m_{t}}}{\sqrt{\hat{n_{t}}} + ϵ} * η

其中，

m_{t} ， n_{t}

分別是對梯度的一階矩估計和二階矩估計，可以看作對期望

E | g_{t} | ， E | g_{t}^{2} |

的估計；

\hat{m_{t}} ， \hat{n_{t}}

是對

m_{t} ， n_{t}

的校正，這樣可以近似爲對期望的無偏估計。
可以看出，直接對梯度的矩估計對內存沒有額外的要求，而且可以根據梯度進行動態調整，而

- \frac{\hat{m_{t}}}{\sqrt{\hat{n_{t}}} + ϵ}

對學習率形成一個動態約束，而且有明確的範圍。

特點：

結合了Adagrad善於處理稀疏梯度和RMSprop善於處理非平穩目標的優點
對內存需求較小
爲不同的參數計算不同的自適應學習率
也適用於大多非凸優化
- 適用於大數據集和高維空間

Adamax
Adamax是Adam的一種變體，此方法對學習率的上限提供了一個更簡單的範圍。公式上的變化如下：

n_{t} = m a x (ν * n_{t - 1}, | g_{t} |)

Δ x = - \frac{\hat{m_{t}}}{n_{t} + ϵ} * η

可以看出，Adamax學習率的邊界範圍更簡單

Nadam
Nadam類似於帶有Nesterov動量項的Adam。公式如下：

\hat{g_{t}} = \frac{g_{t}}{1 - Π_{i = 1}^{t} μ_{i}}

m_{t} = μ_{t} * m_{t - 1} + (1 - μ_{t}) * g_{t}

\hat{m_{t}} = \frac{m_{t}}{1 - Π_{i = 1}^{t + 1} μ_{i}}

n_{t} = ν * n_{t - 1} + (1 - ν) * g_{t}^{2}

\hat{n_{t}} = \frac{n_{t}}{1 - ν^{t}} \bar{m_{t}} = (1 - μ_{t}) * \hat{g_{t}} + μ_{t + 1} * \hat{m_{t}}

Δ θ_{t} = - η * \frac{\bar{m_{t}}}{\sqrt{\hat{n_{t}}} + ϵ}

可以看出，Nadam對學習率有了更強的約束，同時對梯度的更新也有更直接的影響。一般而言，在想使用帶動量的RMSprop，或者Adam的地方，大多可以使用Nadam取得更好的效果。

經驗之談
對於稀疏數據，儘量使用學習率可自適應的優化方法，不用手動調節，而且最好採用默認值
SGD通常訓練時間更長，但是在好的初始化和學習率調度方案的情況下，結果更可靠
如果在意更快的收斂，並且需要訓練較深較複雜的網絡時，推薦使用學習率自適應的優化方法。
Adadelta，RMSprop，Adam是比較相近的算法，在相似的情況下表現差不多。
在想使用帶動量的RMSprop，或者Adam的地方，大多可以使用Nadam取得更好的效果

深度學習優化方法

depthwise conv 和 pointwise conv

神經網絡量化：Quantization and Training of Neural Networks for Efﬁcient Integer-Arithmetic-Only Inference

博客收藏（機器學習/深度學習相關）

深度學習中的損失函數

視覺計算/深度學習/人工智能筆試面試彙總（騰訊、網易、yy、美圖等）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結