論文: Jimmy Lei Ba, Jamie Ryan Kiros, Geoffrey E. Hinton. Layer Normalization. arXiv:1607.06450
Batch normalization
對每個channel或者hidden unit,求輸入(mini-)batch上所有樣本在這個channel上的均值和標準差。之後根據每個channel上的均值和標準差對這些樣本進行歸一化處理。
然後對歸一化後的樣本的每個channel進行放射變換: ,一個mini-batch上不同樣本的同一channel上處理方式相同。
每個channel需要且僅需要學習兩個參數:gain和bias。
Layer normalization
對於輸入的每個樣本求一個均值和方差,然後根據每個樣本的均值和方差對該樣本進行歸一化處理。
這之後對每個channel進行一個不同仿射變換: ,一個mini-batch上不同樣本的同一channel上處理方式相同。
每個channel需要且僅需要學習兩個參數:gain和bias。
Instance normalization
對於輸入的每個樣本:求每個channel的均值和方差。之後根據這個樣本不同channel的均值和方差逐channel對該樣本進行歸一化處理。
這之後對這個樣本的每個channel進行一個不同仿射變換: ,一個mini-batch上不同樣本的同一channel上處理方式相同。
每個channel需要且僅需要學習兩個參數:gain和bias。