擺脫肥宅,從我做起—day01

視頻學習
在這裏插入圖片描述

爲什麼有些小樣本數據集可以用很小的minibatch,好像有16,8的?
在這裏插入圖片描述

感覺就是平均的規則太“死板”,所以弄個加權。而普通加權又是另一種“死板”,所以用前面的所有“平均”代表當前數。之所以“指數”,是因爲,按公式一層層套進去之後,其實就是一個和貝塔有關的指數。
在這裏插入圖片描述

同理,普通梯度下降,梯度更新也太“死板”,所以借用指數加權平均思想,來更新梯度。(視頻有個球滾下碗的比喻,貝塔比喻摩擦,微分比喻加速度,所以“速度不會無止盡增加。不太理解

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章