吳恩達深度學習學習筆記——C2W3——超參數調試、Batch正則化和程序框架-1

原創

2021-02-04 09:25

超參數有哪些？學習率α、動量梯度下降法參數β、Adam算法參數（β1、β2、ε）、神經網絡的層數、神經網絡各隱層的節點數、學習率衰減係數、mini-batch大小等

隨機選擇超參數一般勝過表格法（按照表格中的調整值一步步調整各參數，效率較低）

使用由粗到細的方法（coarse to fine）

使用普通刻度（均勻刻度，uniform scale）隨機選擇超參數，如神經網絡的層數、神經網絡各隱層的節點數

選擇合適的超參數刻度（如，學習率可使用對數刻度，而不是均勻分佈的普通刻度）

對於指數加權平均數（如，動量梯度下降參數β），應使用指數刻度而不是均勻刻度。如果使用均勻刻度，會發現當β接近1時，模型受更多數據量的影響，如，β從0.999提高到0.9995時，要考慮的歷史數據量從1000上升到了2000，遠高於β從0.9000提高到0.9005時的情況。

可從跨學科領域獲取靈感（cross-fertilization），重新調整超參數

兩種調參方式：熊貓育子方式（Panda）和魚子方式（Caviar）

熊貓方式：針對一個模型精心調節參數，讓其變得更優秀

魚子方式：並行訓練多個模型，選擇最好的模型

正則化輸入可以加速學習過程

Batch Norm（批次正則化、批次歸一化）的實現

在神經網絡中加入Batch Norm處理（介於線性值Z和激活函數a之間）

在mini-batch中使用Batch Norm（由於引入了Batch Norm參數β和γ，Z中的偏移項b可以省略或置零）

引入Batch Norm後梯度下降的實現

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.