批歸一化Batch Normalization學習筆記

1 Batch Normalization（BN）的作用

1.1 特徵分佈對神經網絡訓練的作用

在神經網絡的訓練過程中，我們一般會將輸入樣本特徵進行歸一化處理，使數據變爲均值爲0，標準差爲1的分佈或者範圍在0~1的分佈。因爲當我們沒有將數據進行歸一化的話，由於樣本特徵分佈較散，可能會導致神經網絡學習速度緩慢甚至難以學習。
用2維特徵的樣本做例子。如下兩個圖

上圖中樣本特徵的分佈爲橢圓，當用梯度下降法進行優化學習時，其優化過程將會比較曲折，需要經過好久才能到達最優點。

上圖中樣本特徵的分佈爲比較正的圓，當用梯度下降法進行優化學習時，其有過的梯度方向將往比較正確的方向走，訓練比較快就到達最優點。
因此一個比較好的特徵分佈將會使神經網絡訓練速度加快，甚至訓練效果更好

1.2 BN的作用

但是我們以前在神經網絡訓練中，只是對輸入層數據進行歸一化處理，卻沒有在中間層進行歸一化處理。要知道，雖然我們對輸入數據進行了歸一化處理，但是輸入數據經過 $σ (W X + b)$ 這樣的矩陣乘法以及非線性運算之後，其數據分佈很可能被改變，而隨着深度網絡的多層運算之後，數據分佈的變化將越來越大。如果我們能在網絡的中間也進行歸一化處理，是否對網絡的訓練起到改進作用呢？答案是肯定的。
這種在神經網絡中間層也進行歸一化處理，使訓練效果更好的方法，就是批歸一化Batch Normalization（BN）。BN在神經網絡訓練中會有以下一些作用：

加快訓練速度
可以省去dropout，L1, L2等正則化處理方法
提高模型訓練精度

2. BN的原理

既然BN這麼厲害，那麼BN究竟是怎麼樣的呢？
BN可以作爲神經網絡的一層，放在激活函數（如Relu）之前。BN的算法流程如下圖：

1. 求上一層輸出數據的均值 $μ_{β}$

μ_{β} = \frac{1}{m} \sum_{i = 1}^{m} x_{i}

其中，m是此次訓練樣本batch的大小。
2. 求上一層輸出數據的標準差

σ_{β}^{2}

σ_{β}^{2} = \frac{1}{m} \sum_{i = 1}^{m} (x_{i} - μ_{β})^{2}

3. 歸一化處理，得到

\hat{x_{i}}

\hat{x_{i}} = \frac{x_{i} + μ_{β}}{\sqrt{σ_{β}^{2} + ε}}

其中

ε

是爲了避免分母爲0而加進去的接近於0的很小值
4. 對經過上面歸一化處理得到的數據進行重構，得到

y_{i}

y_{i} = γ \hat{x_{i}} + β

其中，

γ 和 β

是可學習參數

上述是BN訓練時的過程，但是當在投入使用時，往往只是輸入一個樣本，沒有所謂的均值 $μ_{β}$ 和標準差 $σ_{β}^{2}$ ，那該怎麼辦呢？此時，網絡中使用的均值 $μ_{β}$ 是計算所有batch $μ_{β}$ 值的平均值得到，標準差 $σ_{β}^{2}$ 採用每個batch $σ_{β}^{2}$ 的無偏估計得到。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

批歸一化Batch Normalization學習筆記

1 Batch Normalization（BN）的作用

1.1 特徵分佈對神經網絡訓練的作用

1.2 BN的作用

2. BN的原理

實錄｜三大AI開發神器亮相！李彥宏：人人都是開發者

文心大模型ERNIE-Tiny：輕量化技術的全面解讀

實操|基於OceanBase打造更穩定的Zabbix監控系統

Milvus 老友匯｜RAG 場景、電商平臺、AI 平臺……如何用向量數據庫構建業務方案？

提高 RAG 應用準確度，時下流行的 Reranker 瞭解一下？

word2vec學習筆記之CBOW和skip-gram

word2vec學習筆記之文本向量化概述

Google Python Style Guide學習筆記

批歸一化Batch Normalization學習筆記

受限玻爾茲曼機與深度信念網絡

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結