1.在CNN中,
(a).BN作用在非線性映射前,當神經網絡收斂速度緩慢時候,或者梯度爆炸無法訓練時候可以考慮用BN,
(b).一般情況也可以用BN來嘗試加快訓練速度,提高模型的精度。
2.不適用於動態的網絡結構和RNN網絡
- BN比較適用的場景是:每個mini-batch比較大,數據分佈比較接近. 在進行訓練之前,要做好充分的shuffle,否則效果會差很多
- 由於BN需要在運行過程中統計每個mini-batch的一階統計量和二階統計量,因此不適用於動態的網絡結構和RNN網絡。
1.在CNN中,
(a).BN作用在非線性映射前,當神經網絡收斂速度緩慢時候,或者梯度爆炸無法訓練時候可以考慮用BN,
(b).一般情況也可以用BN來嘗試加快訓練速度,提高模型的精度。
2.不適用於動態的網絡結構和RNN網絡