深度学习基础--正则化与norm--Layer Normalization 即层标准化

原創

2018-11-21 02:16

Layer Normalization 即层标准化

Layer Normalization和普通的标准化类似，是将网络中的层进行归一化的操作。
一般用于RNN。

原因

对于RNN模型来说，归一化的时候Batch Normalization不再适合，在RNN模型里，sequence的长度是不一致的，正是由于这种不一致的问题，导致BN使用起来效果不佳，借用网上的一句话，RNN的深度不是固定的，不同的time-step需要保存不同的statics特征，可能存在一个特殊的sequence比其sequence长，所以对sequence进行Batch Normalization计算起来比较麻烦。于是乎，Layer Normalization登场了。

优点

跟BN类似，也具有Normalization的优点，但更适用于RNN模型。

计算和使用

需要明确的是LN是对层进行归一化的，但是也是对某一层所有的dataset进行归一化的。
LN中同层输入拥有相同的均值和方差（即整个一层都共享同一个均值和方差），不同输入(训练样本)拥有不同的均值和方差； 而BN是同一个minibatch中的输入拥有相同的均值和方差，而不同minibatch的输入拥有不同的均值和方差。

1）一般的BN通式：

2）LN的公式：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

网络权重初始化方法总结（上）：梯度消失、梯度爆炸与不好的初始化

文章目錄前向傳播與反向傳播回顧梯度消失與梯度爆炸激活函數的影響權重矩陣的影響不良初始化參考博客：blog.shinelee.me | 博客園 | CSDN 前向傳播與反向傳播回顧神經網絡的訓練過程可以簡化成以下步驟，輸入預

2020-06-30 06:07:17

[知乎转载] BN的具体作用和过程

作者：魏秀參鏈接：https://www.zhihu.com/question/38102762/answer/85238569 來源：知乎著作權歸作者所有。商業轉載請聯繫作者獲得授權，非商業轉載請註明出處。 1. What is

2020-06-26 05:41:59

AI知识基础笔记

在概率論或信息論中，KL散度( Kullback–Leibler divergence)，又稱相對熵（relative entropy)，是描述兩個概率分佈P和Q差異的一種方法。它是非對稱的，這意味着D(P||Q) ≠ D(Q||P)。特

2020-06-23 05:13:13

几种可分卷积

參考： http://www.sohu.com/a/317166403_394987 0. 標準的2D卷積對於神經元的輸入（7*7*3），用一個3*3*3的卷積覈對輸入進行卷積，得到一個5*5*1的特徵圖：若想得到128個特徵圖，需

你吃过卤汁牛肉吗

2020-06-22 00:40:02

1. 初始化方法

1. 爲什麼要選擇合適的權重初始化在訓練一個神經網絡模型之前，我們需要對模型中的權重進行初始化。這時，選擇一個合適權重初始化方法尤爲重要，一個好的權重初始化方法能夠加速模型收斂減少訓練時間。 2. 合適的初始化方法應

2020-06-21 12:53:23

对于深度学习中 Batch Normallization (BN) 和 Batch Renormalization 的理解

爲什麼需要Batch Normalization？在深度學習中，因爲網絡的層數非常多，如果數據分佈在某一層開始有明顯的偏移，隨着網絡的加深這一問題會加劇（即internal covariate shift），進而導致模型優化的難

2020-06-20 16:17:01

【pytorch阅读笔记】pytorch基础知识

本部分共分爲5部分：基本數據 Autograd與計算圖神經網絡工具箱：torch.nn 模型處理 torchvision.model 數據處理 pytorch最大的優勢是可以使用tensor代替numpy進行對應的矩陣操作

Patrick Star@wust

2020-06-20 11:25:06

【数据集转换】COCO数据集格式

簡介 COCO數據集現在有3種標註類型：object instances（目標實例）, object keypoints（目標上的關鍵點）, and image captions（看圖說話），使用JSON文件存儲。格式結構 {

Patrick Star@wust

2020-06-20 11:25:06

梯度消失和梯度爆炸以及过拟合和欠拟合

其實梯度爆炸和梯度消失問題都是因爲網絡太深，網絡權值更新不穩定造成的，本質上是因爲梯度反向傳播中的連乘效應梯度消失與梯度爆炸梯度消失主要原因：在反向傳播的過程中，每層的梯度大於0小於1（sigmoid函數的最大梯度爲0.25

2020-06-19 04:38:23

损失函数 - Cross Entropy Loss(交叉熵损失函数)

今天看到一篇寫的不錯的關於交叉熵損失的講解，感覺算法的各個步驟講的很詳細清晰，遂在博客中記錄一下。交叉熵損失函數經常用於分類問題中，特別是在神經網絡做分類問題時，也經常使用交叉熵作爲損失函數，此外，由於交叉熵涉及到計算每個類別的概率，所

2020-06-15 04:03:49

回归、自回归、循环神经网络（RNN）、LSTM

1 RNN的統計學基礎 1.1 迴歸： Investpedia: Regression refers to the relation between selected values of x and observed values

2020-06-15 03:02:29

内容提要

本書主要服務於深度學習的應用工程師. 努力在數學嚴謹性和工程易用性之間取得平衡. 不適合首次接觸深度學習的讀者, 但非常適合作爲第二本書. 建議深度學習的初學者先從基本概念開始學習, 本書亦有一篇關於入門資料的文章. 市面上已有大

2020-06-11 04:52:45

softmax函数详解及误差反向传播的梯度求导

摘要本文給出 softmax 函數的定義, 並求解其在反向傳播中的梯度相關配套代碼, 請參考文章 : Python 和 PyTorch 對比實現 softmax 及其反向傳播系列文章索引 : https://blog.cs

2020-06-11 04:52:45

深度学习基础（一）——反向传播算法

爱弹ukulele的程序猿

2020-05-30 16:57:32

深度学习基础（六）—— 批标准化 (Batch Normalization)

爱弹ukulele的程序猿

2020-05-30 16:57:32

24小時熱門文章

Wireshark 安装+使用（一）

最新文章

最新評論文章