改善深層神經網絡：超參數調整、正則化以及優化——2.8 Adam算法（Adaptive Moment Estimation）

原創

2020-02-27 10:15

Adam算法是Momentum和RMSprop結合在一起得到的。使用Adam算法，首先要初始化 $V_{dw}=0,S_{dw}=0,V_{db}=0,S_{db}=0$ 。在第t次迭代中，要計算微分，用當前的mini-batch計算 $dW,db$ ，一般會用mini-batch梯度下降法，接下來計算momentum指數加權平均數： $V_{dw}=\beta_1*V_{dw}+(1-\beta_1)*d_W$ $V_{db}=\beta_1*V_{db}+(1-\beta_1)*db$ 接着用RMSprop進行更新 $S_{dw}=\beta_2*S_{dw}+(1-\beta_2)*(dw)^2$ $S_{db}=\beta_2*S_{db}+(1-\beta_2)*(db)^2$ 一般使用Adam算法的時候，要計算偏差修正： $V_{dw}^{corrected}=\frac{V_{dw}}{1-\beta_1^t}$ $V_{db}^{corrected}=\frac{V_{db}}{1-\beta_1^t}$ $S_{dw}^{corrected}=\frac{S_{dw}}{1-\beta_2^t}$ $S_{db}^{corrected}=\frac{S_{db}}{1-\beta_2^t}$ 最後更新權重 $W=W-\alpha\frac{V_{dw}^{corrected}}{\sqrt{S_{dw}^{corrected}}+\varepsilon}$ $b=b-\alpha\frac{V_{db}^{corrected}}{\sqrt{S_{db}^{corrected}}+\varepsilon}$ 所以Adam算法結合了Momentum和RMSprop梯度下降法，並且是一種及其常見的學習算法，被證明能有效適用於不同的神經網絡。該算法有很多很重要的超參數，超參數學習率 $\alpha$ 很重要，也經常需要調試，可以嘗試一系列值，然後看哪個有效。 $\beta-1$ 常用的缺省值爲0.9，這是 $dW$ 的移動平均數，也就是 $dW$ 的加權平均數，這是Momentum涉及的項。至於超參數 $\beta_2$ ，Adam算法的發明者推薦使用0.999，這是在計算 $(dW)^2$ 以及 $(db)^2$ 的移動加權平均值。關於 $\varepsilon$ 的選擇其實沒有很重要，Adam論文的作者建議 $\varepsilon$ 爲 $10^{-8}$ 。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

改善深層神經網絡：超參數調整、正則化以及優化——2.8 Adam算法（Adaptive Moment Estimation）

如何使用 JS 判斷用戶是否處於活躍狀態

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

循環神經網絡——裁剪梯度（應對梯度爆炸）

自然語言處理——語言模型

np.c_和np.r_的用法解析

自然語言處理 —— 困惑度

集成學習

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結