吳恩達深度學習學習筆記——C2W2——算法優化-1

 

 

1.1 Mini-batch 梯度下降法

Mini-batch是指將大的數據集分成更小規模的子集

 

採用mini-batch梯度下降,在每次遍歷完一個mini-batch後即可更新參數,而不用等待遍歷完全部訓練集才更新參數

 

 

1.2 理解 mini-batch 梯度下降法

 

Mini-batch梯度下降不如Batch梯度下降那麼平滑,但是整體趨勢還是下降的

 

選擇mini-batch的大小:

當size = m時,即爲普通的batch梯度下降

當size = 1時,即爲隨機(stochastic)梯度下降

通常,選擇折中的大小,mini-batch的大小也可作爲一個超參數(hyper-parameter)進行確定

 

Mini-batch的大小通常選擇爲2的整數次冪(否則,訓練速度可能會斷崖式下降)

 

 

1.3 指數加權平均

通過加權平均,可以讓數據更加“平滑”

 

指數加權平均(vt = βvt-1 + (1-β)θt),β值越高,數據曲線更平滑,但同時曲線會更加向右偏移

 

 

1.4 理解指數加權平均

 

 

指數加權平均中的β有什麼含義?β值越高,相當於在計算新值(當前值)時考慮了更多的歷史數據

 

指數加權平均的實現示例,其優點時佔用內存小(只用一行代碼表示舊值)

 

 

1.5 指數加權平均的偏差修正

採用指數加權平均後,頭部數據值會明顯偏低(出現偏差),可對此進行修正

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章