Layer Normalization

論文: Jimmy Lei Ba, Jamie Ryan Kiros, Geoffrey E. Hinton. Layer Normalization. arXiv:1607.06450

Batch normalization

對每個channel或者hidden unit,求輸入(mini-)batch上所有樣本在這個channel上的均值和標準差。之後根據每個channel上的均值和標準差對這些樣本進行歸一化處理。

然後對歸一化後的樣本的每個channel進行放射變換: yic=gainc×xic+biascy_{ic}= gain_c \times x_{ic} + bias_c,一個mini-batch上不同樣本的同一channel上處理方式相同。

每個channel需要且僅需要學習兩個參數:gain和bias。

Layer normalization

對於輸入的每個樣本求一個均值和方差,然後根據每個樣本的均值和方差對該樣本進行歸一化處理。

這之後對每個channel進行一個不同仿射變換: yic=gainc×xic+biascy_{ic}= gain_c\times x_{ic}+bias_c,一個mini-batch上不同樣本的同一channel上處理方式相同。

每個channel需要且僅需要學習兩個參數:gain和bias。

Instance normalization

對於輸入的每個樣本:求每個channel的均值和方差。之後根據這個樣本不同channel的均值和方差逐channel對該樣本進行歸一化處理。

這之後對這個樣本的每個channel進行一個不同仿射變換: yic=gainc×xic+biascy_{ic}= gain_c\times x_{ic}+bias_c,一個mini-batch上不同樣本的同一channel上處理方式相同。

每個channel需要且僅需要學習兩個參數:gain和bias。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章