深度學習中的RMSprop算法原理

    在 https://blog.csdn.net/gaoxueyi551/article/details/105238182 一文中,說明了基於Momentum的算法,本文介紹的RMSprop算法的引入背景和Momentum算法相同,底層理論依然是指數加權平均。

    但是,兩者優化思路存在些微差別。爲了和Momentum算法中的符號相區別,引入 \large s_w 和 \large s_b

                                                                   \large s_w = \beta s_w + (1-\beta )dw^2

                                                                    \large s_b = \beta s_b + (1-\beta )db^2

    其中,\large dw^2 和  \large db^2 表示對向量的各個分量計算平方。基於上述定義,梯度更新規則變爲

                                                                         \large w=w^{'}-\eta \frac{d_w}{\sqrt{s_w}}

                                                                          \large b=b^{'}-\eta \frac{d_b}{\sqrt{s_b}}

    顯然,Momentum 和 RMSprop是存在區別的。前者是在梯度的更新方向上做優化,沒有考慮數值大小;後者在數值大小上進行優化,在梯度值較大的方向進行適當的減小步伐,在梯度值較小的方向適當增大步伐,沒有考慮方向。個人認爲,兩者在長期的優化效果上基本上是一致的,即減小了個別方向上的震動幅度,加快了收斂速度。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章