吳恩達深度學習學習筆記——C2W2——算法優化-1

原創

2021-01-30 11:09

Mini-batch是指將大的數據集分成更小規模的子集

採用mini-batch梯度下降，在每次遍歷完一個mini-batch後即可更新參數，而不用等待遍歷完全部訓練集才更新參數

Mini-batch梯度下降不如Batch梯度下降那麼平滑，但是整體趨勢還是下降的

選擇mini-batch的大小：

當size = m時，即爲普通的batch梯度下降

當size = 1時，即爲隨機（stochastic）梯度下降

通常，選擇折中的大小，mini-batch的大小也可作爲一個超參數（hyper-parameter）進行確定

Mini-batch的大小通常選擇爲2的整數次冪（否則，訓練速度可能會斷崖式下降）

通過加權平均，可以讓數據更加“平滑”

指數加權平均（vt = βvt-1 + (1-β)θt），β值越高，數據曲線更平滑，但同時曲線會更加向右偏移

指數加權平均中的β有什麼含義？β值越高，相當於在計算新值（當前值）時考慮了更多的歷史數據

指數加權平均的實現示例，其優點時佔用內存小（只用一行代碼表示舊值）

採用指數加權平均後，頭部數據值會明顯偏低（出現偏差），可對此進行修正

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.