MABN
MABN的出發點是BN依賴於大的BatchSize。作者發現,BN對於BatchSize的依賴不僅體現在均值和方差兩個統計量上,還體現在導數上。經過與Online Norm對比發現,這兩個對BatchSize依賴的導數項就是導數在和上的投影。
從這個圖中可以看出,當BatchSize小時,這兩項導數的投影與大BatchSize的投影差別很大。也就是說,Batchsize也影響了對投影量的估計。
爲了降低BatchSize的影響,作者一方面減少了與BatchSize有關的量的數量。
從上面的公式看出,通過去掉中心化這個步驟,使得FP和BP過程中只有兩個與BatchSize相關的統計量。
爲了保證的均值爲0,作者將中心化這個步驟轉移到前面的卷積層
但是此時,二階矩這個統計量仍然與BatchSize相關,所以,作者通過running 的方式,降低了對BatchSize的依賴。作者借用了Batch Renormalization的做法,公式如下:
Online norm
Online norm的目標同樣是降低batchsize。它將輸入認爲是一個時間序列,不存在batch。每次計算統計量時要將所有輸入的量進行統計。這也是他的running 方程和其他方程不一樣的原因。
可以推導一下這兩個公式:
再結合exponentially decaying averaging的公式:
可以得到原文中那兩個統計量的由來。
online norm對導數也做了處理。
這個處理方式是對導數的估計,並不等於真正的導數。值得注意的一點是,公式中的是0.99,把這個值代入,發現online norm對於導數的修改幾乎只是放縮,方向上的修正幾乎沒有。