論文提出了一個估計梯度對神經網絡影響的函數net(gt),這個函數基於Adam二階動量更新規則
作者根據該公式分析,指出Adam存在的幾個個問題:
- 神經網絡在通過Adam優化的過程中,二階動量vt與梯度gt存在正相關,所以當一個gt更新到錯誤方向時,vt更新也會出現錯誤,見公式vt=β2vt−1+(1−β2)gt2。
- Adam的步長更新存在不均衡問題,見公式vtα,即梯度越大的時候,步長更新越小,梯度越小是步長更新越大。最終導致了Adam算法可能不收斂。
- 因此,在Adam的優化中,正確的梯度方向C對結果產生的影響小於錯誤的梯度方向−1。
作者提出來解決方案,
- 將gt與vt解相關,使用gt−n計算vt。
- 將gt(t=1......n),分爲兩部分,分別用來計算一階動量mt與二階動量vt,即將vt與mt解相關(這塊沒理解爲啥)。
- 對神經網絡不同的層的參數更新使用不同的步長,每層一個步長。每層的參數更新只使用這一層前面參數。
存在的問題:
- 爲何gt與gt−n相互獨立,我認爲,這兩個變量必然是gt依賴於gt−n,因爲每次更新θ必然依賴於g,新的θt+1更新依賴於gt,θt+1又影響gt+1,所以gt、gt+1相互依賴。