Tensorflow2.0學習筆記（七）BatchNorm層

原創

Jackilina_Stone

2020-06-23 08:45

（1）BN的作用

從上圖可以看出，Sigmoid函數在[-2，2]區間導數值在[0.1，0.25]，當輸入大於2或者小於2時，導數逼近於0，從而容易出現梯度彌散的現象。通過標準化後，輸入值被映射在0附近區域，此處的導數不會太小，不會容易出現梯度彌散的現象。

如上圖所示的損失函數等高線圖可知，當x1和x2分佈相近時，收斂更加快速，優化軌跡更好。

結論：通過標準化後，輸入值被映射在0附近區域，此處的導數不會太小，不會容易出現梯度彌散的現象；網絡層輸入分佈相近，收斂速度更快。

（2）如何保證輸入的分佈相近？

其中，m爲Batch樣本數，Batch內部的均值和方差分別爲是計算出來的。

是爲了防止出現除0的錯誤而設置的較小的數，例如le-8。爲了提高BN層的表達能力，引入了縮放和平移。

參數由反向傳播算法自動優化，實現網絡層按需要縮放和平移數據的分佈的目的。

（3）前向傳播

訓練過程：

計算當前Batch的，計算BN層的輸出見公式（1）

迭代更新全局訓練數據的統計值的過程見（2）

其中，momentum是需要設置的一個超參數，用於平衡更新幅度。

Momentum=0時，直接被更新爲最後一個batch的；

Momentum=1時，保持不變。

在tensorflow中，Momentum的默認設置爲0.99。

測試過程：

其中，均來自訓練過程統計或優化，在測試過程中直接使用，並不會更新。

（4）反向更新

在訓練過程中，反向傳播算法根據損失L求解梯度，按照更新法則自動優化。

注意：對於2D的特徵輸入X:[b,h,w,c]，BN層不是計算每一個點的，而是在通道C上面統計每個通道上面的所有數據的。

除了C軸上面統計數據的方式，還有如下幾種：

Layer Norm：統計每個樣本的所有特徵的均值和方差

Instance Norm：統計每個樣本的每個通道上特徵的均值和方差。

Group Norm：將通道分成若干組，統計每個樣本的通道組內的特徵均值和方差。

（5）BN層

創建BN層：layer=layers.BatchNormalization()

由於BN在訓練和測試過程的行爲不同，需要通過設置training標誌來區分。

參考資料：Tensorflow 深度學習龍龍老師

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Tensorflow2.0學習（十） — 基礎張量、微分操作及自定義層

因爲再後面一些分享的章節的內容很多是基於經典論文的復現了，裏面會牽扯到很多自定義的模型及其變換。而這些內容有些是我們的Keras API 無法完成的,例如Resnet的residual block。因此這一節課我們有必要去學習一些基礎、底

2020-07-04 21:27:08

Tensorflow2.0學習（九） — 通過keras自定義圖像數據集

上一節講解了如何用tensorflow自帶的函數自定義我們的數據集，那麼這一節我將通過調用tensorflow2.0的高級API keras來分享另一種自定義數據集的方式，並且這種方式會更加易懂方便一些。這一節我們準備處理的數據集爲貓狗

2020-07-04 21:27:07

Tensorflow2.0學習（八） — tf.dataset自定義圖像數據集

這一節我們參照官方教程提供的代碼，研究如何製作自己的數據集並送入深度學習模型中訓練。我們可以看到，前幾節的內容很多是基於現成的數據集，直接導入使用即可。但在實際應用中，這顯然是不可行的。對於Tensorflow2.0，主要有兩種自定義製作

2020-07-04 21:27:07

基於阿里雲服務器的網站部署教程（三） — Python的Flask+html靜態文件+CSS+圖片部署

基於之前兩節阿里雲服務器部署的基礎，本節將會分享部署在阿里雲服務器的Flask如何結合HTML靜態文件、CSS和圖片設計一個稍微好看一點的網站。一.網站創建及配置 1.這裏我們使用上節教程創建的IP地址的2222端口來進行部署測試。首先

2020-07-04 21:27:07

Tensorflow2.0學習（十二） — DCGAN(深度卷積生成對抗網絡）實戰

這一節將會談到如何使用tensoflow2.0去成功復現出DCGAN的結構並應用在我們的MNIST數據集上。在這裏，我們簡單的說一下GAN和DCGAN的相關知識。更仔細的原理部分大家可以參照其它博主的博客或者我的後續系列的分享中也會詳細提

2020-07-04 21:27:07

Tensorflow2.0學習（十一） — 貓狗分類遷移學習實戰

這一節我們將用Tensorflow2.0完成一個圖像領域處理的重要任務，即是“遷移學習”。遷移學習簡單來說就是一個預訓練的模型（已經在別的數據集上訓練過的）重新使用在另一個數據集或任務中。遷移學習不僅大大減小了我們的新數據集的訓練時間和難

2020-07-04 21:27:06

Tensorflow2.0之dataset讀取csv及tfrecord文件（第四節）

本章節的主要內容是csv文件的讀入（寫入直接用pandas即可），tfrecords文件的寫入及讀取（讀入是解析成可以訓練的數組形式） csv文件讀入 list_files = ['a.csv','b.csv','c.csv

2020-07-01 02:56:51

Tensorflow2 RNN模型imdb電影評分預測和Character-level language model

import matplotlib as mpl import matplotlib.pyplot as plt %matplotlib inline import numpy as np import pandas as pd

2020-07-01 02:56:51

Tensorflow2.0 feature_columns ，交叉特徵，estimator，tf1.0實戰(第五節)

5-8以前爲tensorflow2.0 ，5-8以後爲tensorflow1.0 什麼是交叉熵？交叉熵：跟信息熵類似，值越小越好，−∑i=1mp(xi)logq(xi)-\sum_{i=1}^m{p(x_i)}{logq(x_

2020-07-01 02:56:51

Tensorflow2.0學習記錄

Tensorflow2.0基礎知識機器學習線性迴歸多層感知器邏輯迴歸深度學習基礎知識機器學習線性迴歸 import pandas as pd list = [[10.0, 26.6], [10.4, 27.3],

duter_sun先生

2020-06-28 15:01:50

Tensorflow2.0學習筆記目錄

目錄： 1 入門 2 tensorboard的使用 3 數據類型和數值精度 4 循環神經網絡 5 梯度彌散和梯度爆炸 6

Jackilina_Stone

2020-06-23 08:45:21

Tensorflow2.0學習筆記（八）Resnet

目錄 1 退化問題？ 2 ResNet的殘差學習單元（Residual Unit） 3 Resnet18 4 Resnet在不同層數時的網絡配置 1 退化問題？在不斷增加神經網絡的深度時，會出現一個退化的問題：準確率會先上升然後

Jackilina_Stone

2020-06-23 08:45:21

Tensorflow2.0學習筆記（四）循環神經網絡

目錄 1 Embedding層 2 預訓練的詞向量 3 循環神經網絡 1 Embedding層在神經網絡中，單詞的表示向量可以直接通過訓練的方式得到，把單詞的表示層叫作Embedding層。在Tensorflow中，可以通過lay

Jackilina_Stone

2020-06-23 08:45:20

Tensorflow2.0學習筆記（九）Resnet實戰

0 數據說明：忽略數據的合理性，本數據爲測試代碼使用的。 1 data_process.py import tensorflow as tf import numpy as np import os import cv2

Jackilina_Stone

2020-06-23 08:45:20

Tensorflow2.0學習筆記（二）tensorboard的使用

目錄 1 代碼 2 命令行輸入：tensorboard --logdir="logs"，WEb查看。 3 查看結果 1 代碼 import tensorflow as tf import numpy as np import os

Jackilina_Stone

2020-06-23 08:45:20

24小時熱門文章

最新文章

最新評論文章