online norm 與 MABN

原創

2020-02-24 13:34

MABN

MABN的出發點是BN依賴於大的BatchSize。作者發現，BN對於BatchSize的依賴不僅體現在均值和方差兩個統計量上，還體現在導數上。經過與Online Norm對比發現，這兩個對BatchSize依賴的導數項就是導數在 $\overrightarrow{1}$ 和 $\overrightarrow{y}$ 上的投影。

從這個圖中可以看出，當BatchSize小時，這兩項導數的投影與大BatchSize的投影差別很大。也就是說，Batchsize也影響了對投影量的估計。

爲了降低BatchSize的影響，作者一方面減少了與BatchSize有關的量的數量。

從上面的公式看出，通過去掉中心化這個步驟，使得FP和BP過程中只有兩個與BatchSize相關的統計量。
爲了保證 $X$ 的均值爲0，作者將中心化這個步驟轉移到前面的卷積層

但是此時，二階矩這個統計量仍然與BatchSize相關，所以，作者通過running 的方式，降低了對BatchSize的依賴。作者借用了Batch Renormalization的做法，公式如下：

Online norm

Online norm的目標同樣是降低batchsize。它將輸入認爲是一個時間序列，不存在batch。每次計算統計量時要將所有輸入的量進行統計。這也是他的running 方程和其他方程不一樣的原因。
可以推導一下這兩個公式：

再結合exponentially decaying averaging的公式：

可以得到原文中那兩個統計量的由來。

online norm對導數也做了處理。

這個處理方式是對導數的估計，並不等於真正的導數。值得注意的一點是，公式中的 $\alpha_b$ 是0.99，把這個值代入，發現online norm對於導數的修改幾乎只是放縮，方向上的修正幾乎沒有。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

online norm 與 MABN

MABN

Online norm

中外程序員到底有啥區別？

Nginx R31 doc-13-Limiting Access to Proxied HTTP Resources 訪問限流

Python數據分析與挖掘實戰（5章）

python包：pandas

公司剛入職了一名 Java 中級開發，短短 4 行代碼居然湊齊了 3 個 bug！我哭了~~

C++文件/流

一、什麼是Docker

二、Docker 組件

揹包九講一 01揹包

今天！通義靈碼在北京、成都、杭州三城開講啦

開題內容

detach_channel_max試驗記錄

The Lottery Ticket Hypothesis

FRN提升方法

目前做法整理

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結