1.1 Mini-batch 梯度下降法
Mini-batch是指將大的數據集分成更小規模的子集
採用mini-batch梯度下降,在每次遍歷完一個mini-batch後即可更新參數,而不用等待遍歷完全部訓練集才更新參數
1.2 理解 mini-batch 梯度下降法
Mini-batch梯度下降不如Batch梯度下降那麼平滑,但是整體趨勢還是下降的
選擇mini-batch的大小:
當size = m時,即爲普通的batch梯度下降
當size = 1時,即爲隨機(stochastic)梯度下降
通常,選擇折中的大小,mini-batch的大小也可作爲一個超參數(hyper-parameter)進行確定
Mini-batch的大小通常選擇爲2的整數次冪(否則,訓練速度可能會斷崖式下降)
1.3 指數加權平均
通過加權平均,可以讓數據更加“平滑”
指數加權平均(vt = βvt-1 + (1-β)θt),β值越高,數據曲線更平滑,但同時曲線會更加向右偏移
1.4 理解指數加權平均
指數加權平均中的β有什麼含義?β值越高,相當於在計算新值(當前值)時考慮了更多的歷史數據
指數加權平均的實現示例,其優點時佔用內存小(只用一行代碼表示舊值)
1.5 指數加權平均的偏差修正
採用指數加權平均後,頭部數據值會明顯偏低(出現偏差),可對此進行修正