白化
減均值:使分佈以0爲中心
除以方差:自然圖像本身就是,不用除
BN和dropout
- 使用更高的學習率
- 不用太擔心初始化
- 像一個正則項,減少dropout的需求,但不矛盾
- 使更快收斂
實現:weight和bias對應gamma和beta,running mean 和 var對應內部的累計均值和方差,配合momentum在訓練時使用,直接在測試時使用。affine控制是否學習scale和shift,即weight和bias。
GPU設置
訓練技巧
優化方法的選擇
Loss
熵和交叉熵:熵就是最優編碼,交叉熵就是用p的最優編碼來編碼q的平均編碼長度。
Softmax
softmax 層的輸出是一個概率分佈。在許多問題中,我們可以很方便地將輸出激活值看作是神經網絡認爲結果是的概率。