Tensorflow2.0学习笔记（七）BatchNorm层

原創

Jackilina_Stone

2020-06-23 08:45

（1）BN的作用

从上图可以看出，Sigmoid函数在[-2，2]区间导数值在[0.1，0.25]，当输入大于2或者小于2时，导数逼近于0，从而容易出现梯度弥散的现象。通过标准化后，输入值被映射在0附近区域，此处的导数不会太小，不会容易出现梯度弥散的现象。

如上图所示的损失函数等高线图可知，当x1和x2分布相近时，收敛更加快速，优化轨迹更好。

结论：通过标准化后，输入值被映射在0附近区域，此处的导数不会太小，不会容易出现梯度弥散的现象；网络层输入分布相近，收敛速度更快。

（2）如何保证输入的分布相近？

其中，m为Batch样本数，Batch内部的均值和方差分别为是计算出来的。

是为了防止出现除0的错误而设置的较小的数，例如le-8。为了提高BN层的表达能力，引入了缩放和平移。

参数由反向传播算法自动优化，实现网络层按需要缩放和平移数据的分布的目的。

（3）前向传播

训练过程：

计算当前Batch的，计算BN层的输出见公式（1）

迭代更新全局训练数据的统计值的过程见（2）

其中，momentum是需要设置的一个超参数，用于平衡更新幅度。

Momentum=0时，直接被更新为最后一个batch的；

Momentum=1时，保持不变。

在tensorflow中，Momentum的默认设置为0.99。

测试过程：

其中，均来自训练过程统计或优化，在测试过程中直接使用，并不会更新。

（4）反向更新

在训练过程中，反向传播算法根据损失L求解梯度，按照更新法则自动优化。

注意：对于2D的特征输入X:[b,h,w,c]，BN层不是计算每一个点的，而是在通道C上面统计每个通道上面的所有数据的。

除了C轴上面统计数据的方式，还有如下几种：

Layer Norm：统计每个样本的所有特征的均值和方差

Instance Norm：统计每个样本的每个通道上特征的均值和方差。

Group Norm：将通道分成若干组，统计每个样本的通道组内的特征均值和方差。

（5）BN层

创建BN层：layer=layers.BatchNormalization()

由于BN在训练和测试过程的行为不同，需要通过设置training标志来区分。

参考资料：Tensorflow 深度学习龙龙老师

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Tensorflow2.0学习（十） — 基础张量、微分操作及自定义层

因爲再後面一些分享的章節的內容很多是基於經典論文的復現了，裏面會牽扯到很多自定義的模型及其變換。而這些內容有些是我們的Keras API 無法完成的,例如Resnet的residual block。因此這一節課我們有必要去學習一些基礎、底

2020-07-04 21:27:08

Tensorflow2.0学习（九） — 通过keras自定义图像数据集

上一節講解了如何用tensorflow自帶的函數自定義我們的數據集，那麼這一節我將通過調用tensorflow2.0的高級API keras來分享另一種自定義數據集的方式，並且這種方式會更加易懂方便一些。這一節我們準備處理的數據集爲貓狗

2020-07-04 21:27:07

Tensorflow2.0学习（八） — tf.dataset自定义图像数据集

這一節我們參照官方教程提供的代碼，研究如何製作自己的數據集並送入深度學習模型中訓練。我們可以看到，前幾節的內容很多是基於現成的數據集，直接導入使用即可。但在實際應用中，這顯然是不可行的。對於Tensorflow2.0，主要有兩種自定義製作

2020-07-04 21:27:07

基于阿里云服务器的网站部署教程（三） — Python的Flask+html静态文件+CSS+图片部署

基於之前兩節阿里雲服務器部署的基礎，本節將會分享部署在阿里雲服務器的Flask如何結合HTML靜態文件、CSS和圖片設計一個稍微好看一點的網站。一.網站創建及配置 1.這裏我們使用上節教程創建的IP地址的2222端口來進行部署測試。首先

2020-07-04 21:27:07

Tensorflow2.0学习（十二） — DCGAN(深度卷积生成对抗网络）实战

這一節將會談到如何使用tensoflow2.0去成功復現出DCGAN的結構並應用在我們的MNIST數據集上。在這裏，我們簡單的說一下GAN和DCGAN的相關知識。更仔細的原理部分大家可以參照其它博主的博客或者我的後續系列的分享中也會詳細提

2020-07-04 21:27:07

Tensorflow2.0学习（十一） — 猫狗分类迁移学习实战

這一節我們將用Tensorflow2.0完成一個圖像領域處理的重要任務，即是“遷移學習”。遷移學習簡單來說就是一個預訓練的模型（已經在別的數據集上訓練過的）重新使用在另一個數據集或任務中。遷移學習不僅大大減小了我們的新數據集的訓練時間和難

2020-07-04 21:27:06

Tensorflow2.0之dataset读取csv及tfrecord文件（第四节）

本章節的主要內容是csv文件的讀入（寫入直接用pandas即可），tfrecords文件的寫入及讀取（讀入是解析成可以訓練的數組形式） csv文件讀入 list_files = ['a.csv','b.csv','c.csv

2020-07-01 02:56:51

Tensorflow2 RNN模型imdb电影评分预测和Character-level language model

import matplotlib as mpl import matplotlib.pyplot as plt %matplotlib inline import numpy as np import pandas as pd

2020-07-01 02:56:51

Tensorflow2.0 feature_columns ，交叉特征，estimator，tf1.0实战(第五节)

5-8以前爲tensorflow2.0 ，5-8以後爲tensorflow1.0 什麼是交叉熵？交叉熵：跟信息熵類似，值越小越好，−∑i=1mp(xi)logq(xi)-\sum_{i=1}^m{p(x_i)}{logq(x_

2020-07-01 02:56:51

Tensorflow2.0学习记录

Tensorflow2.0基礎知識機器學習線性迴歸多層感知器邏輯迴歸深度學習基礎知識機器學習線性迴歸 import pandas as pd list = [[10.0, 26.6], [10.4, 27.3],

duter_sun先生

2020-06-28 15:01:50

Tensorflow2.0学习笔记目录

目錄： 1 入門 2 tensorboard的使用 3 數據類型和數值精度 4 循環神經網絡 5 梯度彌散和梯度爆炸 6

Jackilina_Stone

2020-06-23 08:45:21

Tensorflow2.0学习笔记（八）Resnet

目錄 1 退化問題？ 2 ResNet的殘差學習單元（Residual Unit） 3 Resnet18 4 Resnet在不同層數時的網絡配置 1 退化問題？在不斷增加神經網絡的深度時，會出現一個退化的問題：準確率會先上升然後

Jackilina_Stone

2020-06-23 08:45:21

Tensorflow2.0学习笔记（四）循环神经网络

目錄 1 Embedding層 2 預訓練的詞向量 3 循環神經網絡 1 Embedding層在神經網絡中，單詞的表示向量可以直接通過訓練的方式得到，把單詞的表示層叫作Embedding層。在Tensorflow中，可以通過lay

Jackilina_Stone

2020-06-23 08:45:20

Tensorflow2.0学习笔记（九）Resnet实战

0 數據說明：忽略數據的合理性，本數據爲測試代碼使用的。 1 data_process.py import tensorflow as tf import numpy as np import os import cv2

Jackilina_Stone

2020-06-23 08:45:20

Tensorflow2.0学习笔记（二）tensorboard的使用

目錄 1 代碼 2 命令行輸入：tensorboard --logdir="logs"，WEb查看。 3 查看結果 1 代碼 import tensorflow as tf import numpy as np import os

Jackilina_Stone

2020-06-23 08:45:20

24小時熱門文章

最新文章

最新評論文章