Adashift論文解讀

論文提出了一個估計梯度對神經網絡影響的函數net(gt)net(g_t),這個函數基於Adam二階動量更新規則
在這裏插入圖片描述
作者根據該公式分析,指出Adam存在的幾個個問題:

  • 神經網絡在通過Adam優化的過程中,二階動量vtv_t與梯度gtg_t存在正相關,所以當一個gtg_t更新到錯誤方向時,vtv_t更新也會出現錯誤,見公式vt=β2vt1+(1β2)gt2v_t=\beta_2v_{t-1}+(1-\beta_2)g_t^2
  • Adam的步長更新存在不均衡問題,見公式αvt\frac{\alpha}{\sqrt{v_t}},即梯度越大的時候,步長更新越小,梯度越小是步長更新越大。最終導致了Adam算法可能不收斂。
  • 因此,在Adam的優化中,正確的梯度方向CC對結果產生的影響小於錯誤的梯度方向1-1

作者提出來解決方案,

  • gtg_tvtv_t解相關,使用gtng_{t-n}計算vtv_t
  • gt(t=1......n)g_t(t=1......n),分爲兩部分,分別用來計算一階動量mtm_t與二階動量vtv_t,即將vtv_tmtm_t解相關(這塊沒理解爲啥)。
  • 對神經網絡不同的層的參數更新使用不同的步長,每層一個步長。每層的參數更新只使用這一層前面參數。
    在這裏插入圖片描述
    存在的問題:
  • 爲何gtg_tgtng_{t-n}相互獨立,我認爲,這兩個變量必然是gtg_t依賴於gtng_{t-n},因爲每次更新θ\theta必然依賴於gg,新的θt+1\theta_{t+1}更新依賴於gtg_tθt+1\theta_{t+1}又影響gt+1g_{t+1},所以gtgt+1g_t、g_{t+1}相互依賴。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章