Adam優化器偏差矯正的理解

1、adam優化器公式

包括動量項和過去梯度平方的指數衰減平均

2、偏差校正後的\hat{w_t}\hat{v_t}

3、Adam的參數更新公式

重點來了

第二部偏差矯正的公式是怎麼等到的???

論文中的推導

但是不知道v_t是怎麼變化來的,下面是我的理解

第一次迭代

v_1=\beta_2v_0+(1-\beta_2)\cdot g_1^2

v_0初始化爲0,則v_1=(1-\beta_2)\cdot g_1^2

對上式左右求期望

這裏對vt展開了,直接套用期望的性質,那個沒有搞懂。。。

這樣就推出來那個公式了

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章