指數加權平均

上圖是一年中365天的溫度變化
指數加權平均的等式是：V_t = βV_t-1 + (1-β)θ_t
θ_t 代表第t天的溫度，也就是縱軸的數值，那麼這個等式得到的V_t 近似代表的就是近似是1/(1-β)天的平均溫度。
當β = 0.9時，V_t 就近似10天的平均溫度，
當β = 0.98時，V_t 就近似50天的平均溫度，
當β = 0.5時，V_t 就近似2天的平均溫度
當β取不同的值的時候可以畫出不同的曲線，當β = 0.98時，畫出的曲線最平滑，當β = 0.5時，畫出的曲線最陡。

如上圖，當β = 0.9時，是紅色曲線，當β = 0.98時是綠色曲線。

偏差修正

其實，在估計運算初期，不能很好的估計溫度的值，產生的點會很低，所以需要進行偏差修正，具體就是用V_t/ (1-β^t)代替 V_t
這樣就在前期進行了修正，隨着t增大βt接近於0，所以後邊的數值基本一樣。

Momentum

在梯度下降過程中，我們希望在縱軸上震盪較小，在橫軸上希望加快速度。那麼我們應用上面的指數加權平均可以實現
循環：
在每個mini-batch上計算dw,db （代表導數）
V_dw = βV_dw+(1-β)dw
V_db = βV_db+(1-β)db ·
更新參數w和b
w= w-αV_dw α是學習率
b = b-αV_db
當β = 0.9時，相當於10次迭代的平均，這樣就可以使縱軸的震動較小，水平方向更快。
默認值β = 0.9

RMSprop

利用均方根
循環：
在每個mini-batch上計算dw,db（導數）
S_dw = βS_dw + (1-β)dw²
S_db = βS_db + (1-β)db²
更新參數w和b
w= w-αdw / [(S_dw) ^{1/ 2} + a]
b = b-αdb / [ (S_db) ^{1/ 2} + a]

這裏實際上我們用的是導數平方的加權操作，a一般爲10^-8 防止分母趨近於0。
根據這個更新參數的公式裏面的，我們根據一開始說的目的，所以希望dw小，db大。
因爲函數在垂直方向的斜率比在水平方向的斜率大（因爲垂直方向比水平方向更抖），所以這是成立的。
所以我們還可以使用大一些學習率加快訓練速度而不擔心垂直方向的擴散。

Adam

Adam的主要思想就是把上面的兩個方法結合起來
循環：
在每個mini-batch上計算dw,db（導數）
V_dw = β₁S_dw+(1 - β₁)dw , V_db = β₁S_db + (1-β₁)db (Momentum)
S_dw = β₂S_dw+(1 - β₂)dw²，S_db = β₂S_db + (1 - β₂)db² (RMSprop)
偏差修正：
V_dw(correct) = V_dw / (1 - β₁^t)，V_db(correct) = V_db / (1 - β₁^t)
S_dw(correct) = S_dw / (1 - β₂^t)，S_db(correct) = S_db / (1 - β₂^t)
更新參數w和b
w= w - α* V_dw(correct) / [( S_dw(correct))^1/2 + a]
b = b - α* V_db(correct) / [( S_db(correct))^1/2 + a]

β₁代表這個導數的平均值，稱爲一階矩
β₂用於計算平方數的指數加權平均，稱爲二階矩

這裏的超參數：
α ：學習率，需要自己調整
β₁：默認0.9（dw）
β₂：默認0.999（dw²）
a : 10^-8

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Momentum、RMSprop、Adam

指數加權平均

偏差修正

Momentum

RMSprop

Adam

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（二）使用kube-vip實現集羣VIP訪問

企業大模型如何成爲自己數據的“百科全書”？

本地SSL證書過期輸入命令在IIS自動生成

.NET週刊【5月第2期 2024-05-12】

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（一）部署K8s

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（三）數據卷掛載NFS（網絡文件系統）

leetcode刷題筆記——分治

Leetcode刷題筆記-滑動窗口

DETECTION OF FAKE IMAGES VIA THE ENSEMBLE OF DEEP REPRESENTATIONS FROM MULTI COLOR SPACES 論文閱讀筆記

leetcode刷題筆記-樹2

leetcode刷題筆記-樹1

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結