online norm 與 MABN

MABN

MABN的出發點是BN依賴於大的BatchSize。作者發現,BN對於BatchSize的依賴不僅體現在均值和方差兩個統計量上,還體現在導數上。經過與Online Norm對比發現,這兩個對BatchSize依賴的導數項就是導數在1\overrightarrow{1}y\overrightarrow{y}上的投影。
在這裏插入圖片描述
在這裏插入圖片描述

在這裏插入圖片描述
從這個圖中可以看出,當BatchSize小時,這兩項導數的投影與大BatchSize的投影差別很大。也就是說,Batchsize也影響了對投影量的估計。

爲了降低BatchSize的影響,作者一方面減少了與BatchSize有關的量的數量。
在這裏插入圖片描述
從上面的公式看出,通過去掉中心化這個步驟,使得FP和BP過程中只有兩個與BatchSize相關的統計量。
爲了保證XX的均值爲0,作者將中心化這個步驟轉移到前面的卷積層
在這裏插入圖片描述
但是此時,二階矩這個統計量仍然與BatchSize相關,所以,作者通過running 的方式,降低了對BatchSize的依賴。作者借用了Batch Renormalization的做法,公式如下:
在這裏插入圖片描述

Online norm

在這裏插入圖片描述
Online norm的目標同樣是降低batchsize。它將輸入認爲是一個時間序列,不存在batch。每次計算統計量時要將所有輸入的量進行統計。這也是他的running 方程和其他方程不一樣的原因。
可以推導一下這兩個公式:
在這裏插入圖片描述
在這裏插入圖片描述
再結合exponentially decaying averaging的公式:
在這裏插入圖片描述
可以得到原文中那兩個統計量的由來。

online norm對導數也做了處理。
在這裏插入圖片描述
這個處理方式是對導數的估計,並不等於真正的導數。值得注意的一點是,公式中的αb\alpha_b是0.99,把這個值代入,發現online norm對於導數的修改幾乎只是放縮,方向上的修正幾乎沒有。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章