如何進行 batch normalization 2d 的計算？

原創

月下花弄影

2019-02-14 17:16

Batch Noramlization 基本算是深度學習的標準配置了。
原文鏈接

在看文章時，關於如何計算有一點疑惑。

雖然就是上面這個公式，但是這個均值和方差到底是啥，或許有人和我一樣還是有一點疑惑。

準確來說，這個均值和方差的維度是什麼？

以二維batch Normalization 爲例，結合 pytorch 程序，本文說一下相關內容。

pytorch的 Batch Normalization 官網

具體來說，輸入是一個4維tensor， $N, C, H, W$ 分別表示 batch size, channels，Height，Width。
那麼對應的，均值的維度就是 $C$ .

我們必須要解釋一下這個均值的 $C$ 維度到底是什麼意思。
Batch Noramlization 是想讓輸入滿足同一個分佈，那麼是讓輸入的什麼特徵滿足同一分佈呢？這麼說有點暈，可以這麼理解，這裏我就只說正確答案了。那就是讓每張圖片的相同通道的所有像素值的均值和方差相同。比如我們有兩張圖片（都爲3通道），我們現在只說R通道，我們希望第一張圖片的R通道的均值和第二張圖片R通道的均值相同，方差同理。

這樣我們也就知道了實際運行過程中均值是如何計算的，可以有兩種方法，把所有圖片的相同通道的值相加，然後求平均數，也可以先求出每一個圖片此通道的均值，然後再求所有圖片此通道均值的均值。

以上也就解釋了爲什麼batch Normalization在 batch size較小的時候會出現的問題，我們可以考慮當batch size就是1的時候，batch Normalization就沒有意義了，不發揮什麼作用，因爲這時就相當於對一張圖片的某通道歸一化（當然，這也有一定作用，不會使某些數過大或過小，從而導致梯度飽和）。

以上問題也就引發了很多其他的Normalization方法，比如當batch size較小時我們怎麼辦？

回過頭來，我們注意到，所謂的batch normalization 2d是對很多二維矩陣求一個均值和方差，請在腦中想象分別取出每一張圖片的R通道並疊放在一起，然後對這所有元素求均值和方差。當我們圖片是3通道的時候，我們就會有3個均值和方差。

再把通道擴展到feature maps, batch Normalization 就是希望處理相同分佈的feature。

從以上分析中，我還想再說一句，那就是batch Normalization 不只是爲抑制梯度飽和，而是爲了使每一個卷積處理相同的分佈。畢竟，如果只是爲了抑制梯度飽和，我們只需要對每一次輸入都做一次歸一化（僅對一張圖片）。因此，batch normalization 叫做 批歸一化

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

如何進行 batch normalization 2d 的計算？

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Python 潮流週刊#51：用 Python 繪製美觀的圖表

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

pytorch中如何同時對image，bounding box, instance mask 進行相同的圖像變換？

pytorch保存和加載模型的兩種方式

【python】頻域濾波

pytorch中int和float如何進行轉化？

SA-GAN： self-attention 的 pytorch 實現（針對圖像）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結