Batch Normalization

Batch Normalization 學習筆記

原文地址：http://blog.csdn.net/hjimce/article/details/50866313

作者：hjimce

一、背景意義

本篇博文主要講解2015年深度學習領域，非常值得學習的一篇文獻：《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》，這個算法目前已經被大量的應用，最新的文獻算法很多都會引用這個算法，進行網絡訓練，可見其強大之處非同一般啊。

近年來深度學習捷報連連、聲名鵲起，隨機梯度下架成了訓練深度網絡的主流方法。儘管隨機梯度下降法對於訓練深度網絡簡單高效，但是它有個毛病，就是需要我們人爲的去選擇參數，比如學習率、參數初始化、權重衰減係數、Drop out比例等。這些參數的選擇對訓練結果至關重要，以至於我們很多時間都浪費在這些的調參上。那麼學完這篇文獻之後，你可以不需要那麼刻意的慢慢調整參數。BN算法（Batch Normalization）其強大之處如下：

(1)你可以選擇比較大的初始學習率，讓你的訓練速度飆漲。以前還需要慢慢調整學習率，甚至在網絡訓練到一半的時候，還需要想着學習率進一步調小的比例選擇多少比較合適，現在我們可以採用初始很大的學習率，然後學習率的衰減速度也很大，因爲這個算法收斂很快。當然這個算法即使你選擇了較小的學習率，也比以前的收斂速度快，因爲它具有快速訓練收斂的特性；

(2)你再也不用去理會過擬閤中drop out、L2正則項參數的選擇問題，採用BN算法後，你可以移除這兩項了參數，或者可以選擇更小的L2正則約束參數了，因爲BN具有提高網絡泛化能力的特性；

(3)再也不需要使用使用局部響應歸一化層了（局部響應歸一化是Alexnet網絡用到的方法，搞視覺的估計比較熟悉），因爲BN本身就是一個歸一化網絡層；

(4)可以把訓練數據徹底打亂（防止每批訓練的時候，某一個樣本都經常被挑選到，文獻說這個可以提高1%的精度，這句話我也是百思不得其解啊）。

開始講解算法前，先來思考一個問題：我們知道在神經網絡訓練開始前，都要對輸入數據做一個歸一化處理，那麼具體爲什麼需要歸一化呢？歸一化後有什麼好處呢？原因在於神經網絡學習過程本質就是爲了學習數據分佈，一旦訓練數據與測試數據的分佈不同，那麼網絡的泛化能力也大大降低；另外一方面，一旦每批訓練數據的分佈各不相同(batch 梯度下降)，那麼網絡就要在每次迭代都去學習適應不同的分佈，這樣將會大大降低網絡的訓練速度，這也正是爲什麼我們需要對數據都要做一個歸一化預處理的原因。

對於深度網絡的訓練是一個複雜的過程，只要網絡的前面幾層發生微小的改變，那麼後面幾層就會被累積放大下去。一旦網絡某一層的輸入數據的分佈發生改變，那麼這一層網絡就需要去適應學習這個新的數據分佈，所以如果訓練過程中，訓練數據的分佈一直在發生變化，那麼將會影響網絡的訓練速度。

我們知道網絡一旦train起來，那麼參數就要發生更新，除了輸入層的數據外(因爲輸入層數據，我們已經人爲的爲每個樣本歸一化)，後面網絡每一層的輸入數據分佈是一直在發生變化的，因爲在訓練的時候，前面層訓練參數的更新將導致後面層輸入數據分佈的變化。以網絡第二層爲例：網絡的第二層輸入，是由第一層的參數和input計算得到的，而第一層的參數在整個訓練過程中一直在變化，因此必然會引起後面每一層輸入數據分佈的改變。我們把網絡中間層在訓練過程中，數據分佈的改變稱之爲：“Internal Covariate Shift”。Paper所提出的算法，就是要解決在訓練過程中，中間層數據分佈發生改變的情況，於是就有了Batch Normalization，這個牛逼算法的誕生。

二、初識BN(Batch Normalization)

1、BN概述

就像激活函數層、卷積層、全連接層、池化層一樣，BN(Batch Normalization)也屬於網絡的一層。在前面我們提到網絡除了輸出層外，其它層因爲低層網絡在訓練的時候更新了參數，而引起後面層輸入數據分佈的變化。這個時候我們可能就會想，如果在每一層輸入的時候，再加個預處理操作那該有多好啊，比如網絡第三層輸入數據X3(X3表示網絡第三層的輸入數據)把它歸一化至：均值0、方差爲1，然後再輸入第三層計算，這樣我們就可以解決前面所提到的“Internal Covariate Shift”的問題了。

而事實上，paper的算法本質原理就是這樣：在網絡的每一層輸入的時候，又插入了一個歸一化層，也就是先做一個歸一化處理，然後再進入網絡的下一層。不過文獻歸一化層，可不像我們想象的那麼簡單，它是一個可學習、有參數的網絡層。既然說到數據預處理，下面就先來複習一下最強的預處理方法：白化。

2、預處理操作選擇

說到神經網絡輸入數據預處理，最好的算法莫過於白化預處理。然而白化計算量太大了，很不划算，還有就是白化不是處處可微的，所以在深度學習中，其實很少用到白化。經過白化預處理後，數據滿足條件：a、特徵之間的相關性降低，這個就相當於pca；b、數據均值、標準差歸一化，也就是使得每一維特徵均值爲0，標準差爲1。如果數據特徵維數比較大，要進行PCA，也就是實現白化的第1個要求，是需要計算特徵向量，計算量非常大，於是爲了簡化計算，作者忽略了第1個要求，僅僅使用了下面的公式進行預處理，也就是近似白化預處理：

公式簡單粗糙，但是依舊很牛逼。因此後面我們也將用這個公式，對某一個層網絡的輸入數據做一個歸一化處理。需要注意的是，我們訓練過程中採用batch 隨機梯度下降，上面的E(xk)指的是每一批訓練數據神經元xk的平均值；然後分母就是每一批數據神經元xk激活度的一個標準差了。

三、BN算法實現

1、BN算法概述

經過前面簡單介紹，這個時候可能我們會想當然的以爲：好像很簡單的樣子，不就是在網絡中間層數據做一個歸一化處理嘛，這麼簡單的想法，爲什麼之前沒人用呢？然而其實實現起來並不是那麼簡單的。其實如果是僅僅使用上面的歸一化公式，對網絡某一層A的輸出數據做歸一化，然後送入網絡下一層B，這樣是會影響到本層網絡A所學習到的特徵的。打個比方，比如我網絡中間某一層學習到特徵數據本身就分佈在S型激活函數的兩側，你強制把它給我歸一化處理、標準差也限制在了1，把數據變換成分佈於s函數的中間部分，這樣就相當於我這一層網絡所學習到的特徵分佈被你搞壞了，這可怎麼辦？於是文獻使出了一招驚天地泣鬼神的招式：變換重構，引入了可學習參數γ、β，這就是算法關鍵之處：

每一個神經元xk都會有一對這樣的參數γ、β。這樣其實當：

、

是可以恢復出原始的某一層所學到的特徵的。因此我們引入了這個可學習重構參數γ、β，讓我們的網絡可以學習恢復出原始網絡所要學習的特徵分佈。最後Batch Normalization網絡層的前向傳導過程公式就是：

上面的公式中m指的是mini-batch size。

2、源碼實現

[python]view
plain copy

m = K.mean(X, axis=-1, keepdims=True)#計算均值  

std = K.std(X, axis=-1, keepdims=True)#計算標準差  

X_normed = (X - m) / (std + self.epsilon)#歸一化  

out = self.gamma * X_normed + self.beta#重構變換  

上面的x是一個二維矩陣，對於源碼的實現就幾行代碼而已，輕輕鬆鬆。

3、實戰使用

(1)可能學完了上面的算法，你只是知道它的一個訓練過程，一個網絡一旦訓練完了，就沒有了min-batch這個概念了。測試階段我們一般只輸入一個測試樣本，看看結果而已。因此測試樣本，前向傳導的時候，上面的均值u、標準差σ 要哪裏來？其實網絡一旦訓練完畢，參數都是固定的，這個時候即使是每批訓練樣本進入網絡，那麼BN層計算的均值u、和標準差都是固定不變的。我們可以採用這些數值來作爲測試樣本所需要的均值、標準差，於是最後測試階段的u和σ 計算公式如下：

上面簡單理解就是：對於均值來說直接計算所有batch u值的平均值；然後對於標準偏差採用每個batch σB的無偏估計。最後測試階段，BN的使用公式就是：

(2)根據文獻說，BN可以應用於一個神經網絡的任何神經元上。文獻主要是把BN變換，置於網絡激活函數層的前面。在沒有采用BN的時候，激活函數層是這樣的：

z=g(Wu+b)

也就是我們希望一個激活函數，比如s型函數s(x)的自變量x是經過BN處理後的結果。因此前向傳導的計算公式就應該是：

z=g(BN(Wu+b))

其實因爲偏置參數b經過BN層後其實是沒有用的，最後也會被均值歸一化，當然BN層後面還有個β參數作爲偏置項，所以b這個參數就可以不用了。因此最後把BN層+激活函數層就變成了：

z=g(BN(Wu))

四、Batch Normalization在CNN中的使用

通過上面的學習，我們知道BN層是對於每個神經元做歸一化處理，甚至只需要對某一個神經元進行歸一化，而不是對一整層網絡的神經元進行歸一化。既然BN是對單個神經元的運算，那麼在CNN中卷積層上要怎麼搞？假如某一層卷積層有6個特徵圖，每個特徵圖的大小是100*100，這樣就相當於這一層網絡有6*100*100個神經元，如果採用BN，就會有6*100*100個參數γ、β，這樣豈不是太恐怖了。因此卷積層上的BN使用，其實也是使用了類似權值共享的策略，把一整張特徵圖當做一個神經元進行處理。

卷積神經網絡經過卷積後得到的是一系列的特徵圖，如果min-batch sizes爲m，那麼網絡某一層輸入數據可以表示爲四維矩陣(m,f,p,q)，m爲min-batch sizes，f爲特徵圖個數，p、q分別爲特徵圖的寬高。在cnn中我們可以把每個特徵圖看成是一個特徵處理（一個神經元），因此在使用Batch Normalization，mini-batch size 的大小就是：m*p*q，於是對於每個特徵圖都只有一對可學習參數：γ、β。說白了吧，這就是相當於求取所有樣本所對應的一個特徵圖的所有神經元的平均值、方差，然後對這個特徵圖神經元做歸一化。下面是來自於keras卷積層的BN實現一小段主要源碼：

[python]view
plain copy

input_shape = self.input_shape  

 reduction_axes = list(range(len(input_shape)))  

 del reduction_axes[self.axis]  

 broadcast_shape = [1] * len(input_shape)  

 broadcast_shape[self.axis] = input_shape[self.axis]  

 if train:  

     m = K.mean(X, axis=reduction_axes)  

     brodcast_m = K.reshape(m, broadcast_shape)  

     std = K.mean(K.square(X - brodcast_m) + self.epsilon, axis=reduction_axes)  

     std = K.sqrt(std)  

     brodcast_std = K.reshape(std, broadcast_shape)  

     mean_update = self.momentum * self.running_mean + (1-self.momentum) * m  

     std_update = self.momentum * self.running_std + (1-self.momentum) * std  

     self.updates = [(self.running_mean, mean_update),  

                     (self.running_std, std_update)]  

     X_normed = (X - brodcast_m) / (brodcast_std + self.epsilon)  

 else:  

     brodcast_m = K.reshape(self.running_mean, broadcast_shape)  

     brodcast_std = K.reshape(self.running_std, broadcast_shape)  

     X_normed = ((X - brodcast_m) /  

                 (brodcast_std + self.epsilon))  

 out = K.reshape(self.gamma, broadcast_shape) * X_normed + K.reshape(self.beta, broadcast_shape)

個人總結：2015年個人最喜歡深度學習的一篇paper就是Batch Normalization這篇文獻，採用這個方法網絡的訓練速度快到驚人啊，感覺訓練速度是以前的十倍以上，再也不用擔心自己這破電腦每次運行一下，訓練一下都要跑個兩三天的時間。另外這篇文獻跟空間變換網絡《Spatial Transformer Networks》的思想神似啊，都是一個變換網絡層。

參考文獻：

1、《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》

2、《Spatial Transformer Networks》

3、https://github.com/fchollet/keras

**********************作者：hjimce 時間：2016.3.12 聯繫QQ：1393852684 原創文章，轉載請保留作者、原文地址信息********************

Batch Normalization

通過f-string編寫簡潔高效的Python格式化輸出代碼

工作中用到的腳本合集

微服務實踐Aspire項目發佈到遠程k8s集羣

[轉帖]20個常用的Linux工具命令

[轉帖]PostgreSQL從小白到高手教程 - 第46講：poc-tpch測試

24-5-18 X

圖片轉換成HDF5文件（加載、保存）

通俗|令人拍案叫絕的Wasserstein GAN 及代碼（WGAN兩篇論文的中文詳細介紹）

Anaconda虛擬環境遷移小記錄

pip安裝到用戶目錄(不需要管理員權限)

使用Pycharm和跳板機連接內網服務器

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結