caffe中的batchNorm層（caffe 中爲什麼bn層要和scale層一起使用）

原創

suixinsuiyuan33

2018-09-04 11:30

caffe中的batchNorm層

鏈接： http://blog.csdn.net/wfei101/article/details/78449680

caffe 中爲什麼bn層要和scale層一起使用
這個問題首先你要理解batchnormal是做什麼的。它其實做了兩件事。
1) 輸入歸一化 x_norm = (x-u)/std, 其中u和std是個累計計算的均值和方差。
2）y=alpha×x_norm + beta，對歸一化後的x進行比例縮放和位移。其中alpha和beta是通過迭代學習的。
那麼caffe中的bn層其實只做了第一件事。scale層做了第二件事。
這樣你也就理解了scale層裏爲什麼要設置bias_term=True，這個偏置就對應2）件事裏的beta：
BatchNorm層優點：
caffe master branch採用的是分離式寫法，conv層扔掉bias，接一個BN層，再接一個帶bias的Scale層。（相當於數據標準化，減均值然後除標準差）
使用：在cnn 後增加，位於神經元非線性變換(relu)前，基本上大多數網絡結構都能很自然地融合進去。
論文中將Batch Normalization的作用說得突破天際，好似一下解決了所有問題，下面就來列舉一下：
　　(1) 可以使用更高的學習率。如果每層的scale不一致，實際上每層需要的學習率是不一樣的，同一層不同維度的scale往往也需要不同大小的學習率，通常需要使用最小的那個學習率才能保證損失函數有效下降，Batch Normalization將每層、每維的scale保持一致，那麼我們就可以直接使用較高的學習率進行優化。
　　(2) 移除或使用較低的dropout。 dropout是常用的防止overfitting的方法，而導致overfit的位置往往在數據邊界處，如果初始化權重就已經落在數據內部，overfit現象就可以得到一定的緩解。論文中最後的模型分別使用10%、5%和0%的dropout訓練模型，與之前的40%-50%相比，可以大大提高訓練速度。
　　(3) 降低L2權重衰減係數。還是一樣的問題，邊界處的局部最優往往有幾維的權重（斜率）較大，使用L2衰減可以緩解這一問題，現在用了Batch Normalization，就可以把這個值降低了，論文中降低爲原來的5倍。
　　(4) 取消Local Response Normalization層。由於使用了一種Normalization，再使用LRN就顯得沒那麼必要了。而且LRN實際上也沒那麼work。
　　(5) 減少圖像扭曲的使用。由於現在訓練epoch數降低，所以要對輸入數據少做一些扭曲，讓神經網絡多看看真實的數據。
總結;
優點：
1.加速訓練
2.減小權重的值的尺度的影響
3.歸一化所帶來的噪聲也有模型正則化的作用
缺點：
1.那就是在訓練時，因爲要對數據進行scale，所以有很多矩陣乘法，導致訓練時間過長。

貌似所有的帶來效果收益的操作都是噪聲所帶來的正則化的功勞，正則化是個啥概念？從幾何上可以這樣理解，NN其實就是在一個高維空間上構建了分類面，數據不變的情況下，這個分類面恰好貼合數據，完美fit訓練集，而添加噪聲後，相當於一些數據的位置不停的在變化，使得分類面發生了可包納的數據量增加了，從而增加的泛化能力。說來說去好像是Data Augmentation的功勞

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

在Kaggle上免費使用GPU

Intro Kaggle提供免費訪問內核中的NVidia K80 GPU。該基準測試表明，在深度學習模型的訓練過程中，爲您的內核啓用GPU可實現12.5倍的加速。這個內核是用GPU運行的。我將運行時間與在CPU上訓練相同模型內核的運

2020-07-08 09:08:45

Windows環境下編譯 matconvnet的坑（2）

未定義函數或變量 'export_fig'。出錯 tiny_face_detector (line 197) export_fig('-dpng', '-native', '-opengl', '-transparent', out

2020-07-08 01:05:53

深度學習(1) 關於圖像卷積和卷積神經網絡（CNN)

最近由於項目組需要，需要看一篇文獻“Deep Learning from Temporal Coherence in Video”。本人也聽過一些關於深度學習，CNN方面的報告，但是其實一直都是似懂非懂，完全不瞭解他們口中

2020-07-07 23:19:57

深度學習論文: A Compact Convolutional Neural Network for Surface Defect Inspection及其PyTorch實現

A Compact Convolutional Neural Network for Surface Defect Inspection PDF:https://www.mdpi.com/1424-8220/20/7/1974/x

2020-07-07 17:00:20

深度學習論文: Pyramidal Convolution: Rethinking CNN for Visual Recognition及其PyTorch實現

深度學習論文: Pyramidal Convolution: Rethinking Convolutional Neural Networks for Visual Recognition及其PyTorch實現 Pyramidal

2020-07-07 17:00:17

Stanford-CS231n-assignment1-KNN及Jupyter Notebook配置

一. 配置我使用的是Anaconda帶的Jupyter Notebook，先在http://cs231n.github.io/assignments2019/assignment1/下載assignment1的.zip文件後可以將其解

不跑步就等肥

2020-07-07 15:12:35

Stanford-CS231n-assignment2-FullyConnectedNets

文章目錄1. layers.py2. fc_net.py3. Solver4. optim.py 1. layers.py from builtins import range import numpy as np def a

不跑步就等肥

2020-07-07 15:12:35

【記錄】爲什麼在CNN的Batch Norm中對C個channel進行歸一化

下面是cs231n-assignment2中的Spatial Batch Norm的介紹中對於此處空間歸一化的解釋，爲什麼對shape爲NCHW的圖像數據進行Batch Norm時需要計算NHW維度的mean和var If th

不跑步就等肥

2020-07-07 15:12:31

Kaggle手寫數字識別（Digit Recognizer）記錄

競賽地址 https://www.kaggle.com/c/digit-recognizer 苦於學了cs231n和pytorch之後沒有東西拿來練手，就去kaggle上找了一個入門競賽，MNIST手寫數字識別，這個比賽把MN

不跑步就等肥

2020-07-07 15:12:31

配置RefineDet -- caffe 添加雙線性插值函數功能

Table of Contents 配置RefineDet-caffe 畫loss曲線 1. 查看log文件 2. 進行log文件分析 3. 利用gnuplot繪製曲線以RefineDet爲例添加雙線性插值函數 1.在RefineDet

2020-07-08 10:06:46

caffe ssd 雜記

目錄 prototxt文件solver.prototxt train.prototxt deploy.prototxt caffe下各層概念（主要層） Convolution卷積層 4Pooling層全連接層 caffe命令行解析 tr

2020-07-08 10:06:44

caffe MNISTAutoencoder

MNISTAutoencoder LogisticRegressionNet LogisticRegressionNet2 R-CNN-ilsvrc13

2020-07-07 22:26:30

googleNet

2020-07-07 22:26:30

caffe loss layer

classification SoftmaxWithLoss HingeLoss Linear Regression EuclideanLoss：多用在線性迴歸中，利用的損失函數是均方誤差：l=(y−f(wx→)) Attr

2020-07-07 22:26:30

caffe中的 AlexNet,LeNet,CaffeNet

AlexNet LeNet caffenet CaffeNetConv LeNet 在ip1上使用ReLU（ Rectified-Linear ）激活函數，ReLU是目前使用最多的激活函數，主要因爲其收斂更

2020-07-07 22:26:30

24小時熱門文章

最新文章

最新評論文章