深度學習之momentum，RMSprop，Adam優化算法

原創

2020-06-16 09:12

momentum算法：
除了batch/mini-batch/stochastic gradient descent 梯度下降法，還有一種算法叫做momentum梯度下降法，運行速度幾乎總是快於標準的地圖下降法，簡而言之，基本的思想就是計算梯度的指數加權平均數，並利用該梯度更新權重，以下是batch/mini-batch gradient descent以及momentum梯度下降法走勢圖。

藍線表示batch梯度下降法，紅線是momentum梯度下降法

我們會發現梯度下降法需要很多計算步驟，慢慢擺動到最小值，這種上下波動減慢了梯度下降法的速度，導致我們無法使用更大的學習率，結果可能會偏離函數的範圍，爲了避免擺動過大，我們需要使用較小的學習率，另一個看待問題的角度是在縱軸上，我們希望慢一點，但是在橫軸上，我們希望快一點，所以使用momentum梯度下降法，我們需要做的是，在每次迭代中，確切的說是在第t次迭代中，我麼要計算微分dw，db，注意是利用現有的mini-batch計算dw，db，如果使用batch梯度下降法，則現在的mini-batch就是全部的batch，對於batch梯度下降法的效果是一樣的。momentum的算法流程如下：
momentum
on iteration t:
compute dw,db on current mini-batch
${\rm{V}}\_{\rm{dw}} = {\rm{\beta*V}}\_{\rm{dw}} + \left( {1 - \beta } \right)*dw$
${\rm{V}}\_{\rm{db}} = {\rm{\beta*V}}\_{\rm{db}} + \left( {1 - \beta } \right)*db$
${\rm{w}} = {\rm{w}} - {\rm{\alpha Vdw}}$
${\rm{b}} = {\rm{b}} - {\rm{\alpha Vdb}}$
在這裏 ${\rm{\beta }}$ 相當於摩擦力，db，dw相當於加速度，這樣就可以減緩梯度下降的幅度，如果平均這些梯度，就會發現這些縱軸上的擺動，平均值接近於零。因此用算法幾次迭代之後，發現momentum梯度下降法，最終以縱軸方向擺動小了，橫軸方向運動更快，因此算法走了一條更加直接的路徑。
在上述算法中，有兩個超參數，學習率 ${\rm{\alpha }}$ 以及參數 ${\rm{\beta }}$ ，在這裏 ${\rm{\beta }}$ 控制着指數加權平均數， ${\rm{\beta }}$ 最常用的值是0.9。

RMSprop算法：
上面講到momentum可以加快學習算法，還有一個叫做RMSprop算法，全稱是（root mean square prop）算法，他也可以加速梯度下降，算法流程如下：
on iteration t:
compute dw,db on current mini-batch
${\rm{Sdw}} = {\rm{\beta Sdw}} + \left\{ {1- \beta } \right\}d{w^2}$
${\rm{Sdb}} = {\rm{\beta Sdb}} + \left\{ {1- \beta } \right\}d{b^2}$
${\rm{w}} = {\rm{w}} - {\rm{\alpha}}\frac{{dw}}{{\sqrt {Sdw + \varepsilon } }}$
${\rm{b}} = {\rm{b}} - {\rm{\alpha}}\frac{{db}}{{\sqrt {Sdb + \varepsilon } }}$
這裏需要說明的是，上面平方的操作是針對整個符號的，這樣做能夠保留微分平方的加權平均數。
我們來理解一下其原理，記得在w方向，我們希望學習速度快，而在垂直方向我們希望減小在縱軸上的擺動，所以有了Sdw和Sdb，我們希望Sdw相對較小，Sdb相對較大，所以我們要除以較大的數，從而減緩縱軸上的變化，在這裏，另一個影響是可以用一個更大的學習率，然後加快學習，從而無須擔心其在縱軸上的偏離。注意，這裏選擇加上 ${\rm{\varepsilon }}$ ,是爲了防止分母爲0，其實 ${\rm{\varepsilon }}$ 對算法的真正意義不大，我們一般將 ${\rm{\varepsilon }}$ 設置爲 ${10^{ - 8}}$ .

Adam算法：
RMSprop以及Adam優化算法是少有的經受住考驗的兩種算法，他們已被證明適用於不同的深度學習結構。
Adam優化算法基本上就是將momentum和RMSprop結合在一起，我們來看看Adam算法的流程。使用Adam算法首先需要初始化
vdw=0,Sdw=0,Vdb=0,Sdb=0
on iteration t:
compute dw,db, using current mini-batch
${\rm{V}}\_{\rm{dw}} = {\beta_1}{\rm{*V}}\_{\rm{dw}} + \left( {1 - {\beta _1}} \right)*dw$
${\rm{V}}\_{\rm{db}} = {\beta_1}{\rm{*V}}\_{\rm{db}} + \left( {1 - {\beta _1}} \right)*db$
momentum更新了 ${\beta _1}$
${\rm{Sdw}} = {\beta _2}{\rm{Sdw}} +\left\{ {1 - {\beta _2}} \right\}d{w^2}$
${\rm{Sdb}} = {\beta _2}{\rm{Sdb}} +\left\{ {1 - {\beta _2}} \right\}d{b^2}$
RMSprop更新了超參數 ${\beta _2}$ 注意：一般計算Adam優化算法的時候要計算偏差修正。
${\rm{Vdw}} = {\beta _1}{\rm{Vdw}} + \left({1 - {\beta _1}} \right)dw$
${\rm{Vdb}} = {\beta _1}{\rm{Vdb}} + \left({1 - {\beta _1}} \right)db$
$V_{dw}^{correted} =\frac{{{\rm{Vdw}}}}{{\left( {1 - \beta _1^t} \right)}}$
$V_{db}^{correted} =\frac{{{\rm{Vdb}}}}{{\left( {1 - \beta _1^t} \right)}}$
$S_{dw}^{correted} = \frac{{{\rm{Sdw}}}}{{\left({1 - \beta _2^t} \right)}}$
$S_{db}^{correted} = \frac{{{\rm{Sdb}}}}{{\left({1 - \beta _2^t} \right)}}$
${\rm{w}} = {\rm{w}} - {\rm{\alpha}}\frac{{V_{dw}^{corrected}}}{{\sqrt {S_{dw}^{corrected} + \varepsilon } }}$
$b = {\rm{b}} - {\rm{\alpha }}\frac{{V_{db}^{corrected}}}{{\sqrt{S_{db}^{corrected} + \varepsilon } }}$
基本流程就是這樣，這裏有很多超參數，超參 ${\rm{\alpha }}$ 很重要，經常需要調整， ${\rm{\beta_1 }}$ 的常用缺省值爲0.9，這是dw的移動平均數，這是momentum涉及的項，至於超參數 ${\rm{\beta_2 }}$ ，Adam論文的作者給出的推薦值是0.998.
最後談談爲什麼叫Adam算法，Adam代表的事Adaptive Moment Estimation。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

深度學習之momentum，RMSprop，Adam優化算法

[轉帖]使用NMT和pmap解決JVM資源泄漏問題原創

Python實現大麥網搶票的四大關鍵技術點解析

Python 安裝庫指令大全

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

【2024-05-21】以茶會友

Error mounting /dev/sdab7 at /media/XXXX: Command-line `mount -t "ntfs" -o

唐宇迪強化學習筆記之項目實戰(flabby bird)

深度學習之momentum，RMSprop，Adam優化算法

深度學習筆記之自然語言處理（word2vec）

tensorflow中模型無法保存出現 get NotFoundError

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結