深度學習基礎--正則化與norm--Layer Normalization 即層標準化

原創

2018-11-21 02:16

Layer Normalization 即層標準化

Layer Normalization和普通的標準化類似，是將網絡中的層進行歸一化的操作。
一般用於RNN。

原因

對於RNN模型來說，歸一化的時候Batch Normalization不再適合，在RNN模型裏，sequence的長度是不一致的，正是由於這種不一致的問題，導致BN使用起來效果不佳，借用網上的一句話，RNN的深度不是固定的，不同的time-step需要保存不同的statics特徵，可能存在一個特殊的sequence比其sequence長，所以對sequence進行Batch Normalization計算起來比較麻煩。於是乎，Layer Normalization登場了。

優點

跟BN類似，也具有Normalization的優點，但更適用於RNN模型。

計算和使用

需要明確的是LN是對層進行歸一化的，但是也是對某一層所有的dataset進行歸一化的。
LN中同層輸入擁有相同的均值和方差（即整個一層都共享同一個均值和方差），不同輸入(訓練樣本)擁有不同的均值和方差； 而BN是同一個minibatch中的輸入擁有相同的均值和方差，而不同minibatch的輸入擁有不同的均值和方差。

1）一般的BN通式：

2）LN的公式：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

網絡權重初始化方法總結（上）：梯度消失、梯度爆炸與不好的初始化

文章目錄前向傳播與反向傳播回顧梯度消失與梯度爆炸激活函數的影響權重矩陣的影響不良初始化參考博客：blog.shinelee.me | 博客園 | CSDN 前向傳播與反向傳播回顧神經網絡的訓練過程可以簡化成以下步驟，輸入預

2020-06-30 06:07:17

[知乎轉載] BN的具體作用和過程

作者：魏秀參鏈接：https://www.zhihu.com/question/38102762/answer/85238569 來源：知乎著作權歸作者所有。商業轉載請聯繫作者獲得授權，非商業轉載請註明出處。 1. What is

2020-06-26 05:41:59

AI知識基礎筆記

在概率論或信息論中，KL散度( Kullback–Leibler divergence)，又稱相對熵（relative entropy)，是描述兩個概率分佈P和Q差異的一種方法。它是非對稱的，這意味着D(P||Q) ≠ D(Q||P)。特

2020-06-23 05:13:13

幾種可分卷積

參考： http://www.sohu.com/a/317166403_394987 0. 標準的2D卷積對於神經元的輸入（7*7*3），用一個3*3*3的卷積覈對輸入進行卷積，得到一個5*5*1的特徵圖：若想得到128個特徵圖，需

你吃过卤汁牛肉吗

2020-06-22 00:40:02

1. 初始化方法

1. 爲什麼要選擇合適的權重初始化在訓練一個神經網絡模型之前，我們需要對模型中的權重進行初始化。這時，選擇一個合適權重初始化方法尤爲重要，一個好的權重初始化方法能夠加速模型收斂減少訓練時間。 2. 合適的初始化方法應

2020-06-21 12:53:23

對於深度學習中 Batch Normallization (BN) 和 Batch Renormalization 的理解

爲什麼需要Batch Normalization？在深度學習中，因爲網絡的層數非常多，如果數據分佈在某一層開始有明顯的偏移，隨着網絡的加深這一問題會加劇（即internal covariate shift），進而導致模型優化的難

2020-06-20 16:17:01

【pytorch閱讀筆記】pytorch基礎知識

本部分共分爲5部分：基本數據 Autograd與計算圖神經網絡工具箱：torch.nn 模型處理 torchvision.model 數據處理 pytorch最大的優勢是可以使用tensor代替numpy進行對應的矩陣操作

Patrick Star@wust

2020-06-20 11:25:06

【數據集轉換】COCO數據集格式

簡介 COCO數據集現在有3種標註類型：object instances（目標實例）, object keypoints（目標上的關鍵點）, and image captions（看圖說話），使用JSON文件存儲。格式結構 {

Patrick Star@wust

2020-06-20 11:25:06

梯度消失和梯度爆炸以及過擬合和欠擬合

其實梯度爆炸和梯度消失問題都是因爲網絡太深，網絡權值更新不穩定造成的，本質上是因爲梯度反向傳播中的連乘效應梯度消失與梯度爆炸梯度消失主要原因：在反向傳播的過程中，每層的梯度大於0小於1（sigmoid函數的最大梯度爲0.25

2020-06-19 04:38:23

損失函數 - Cross Entropy Loss(交叉熵損失函數)

今天看到一篇寫的不錯的關於交叉熵損失的講解，感覺算法的各個步驟講的很詳細清晰，遂在博客中記錄一下。交叉熵損失函數經常用於分類問題中，特別是在神經網絡做分類問題時，也經常使用交叉熵作爲損失函數，此外，由於交叉熵涉及到計算每個類別的概率，所

2020-06-15 04:03:49

迴歸、自迴歸、循環神經網絡（RNN）、LSTM

1 RNN的統計學基礎 1.1 迴歸： Investpedia: Regression refers to the relation between selected values of x and observed values

2020-06-15 03:02:29

內容提要

本書主要服務於深度學習的應用工程師. 努力在數學嚴謹性和工程易用性之間取得平衡. 不適合首次接觸深度學習的讀者, 但非常適合作爲第二本書. 建議深度學習的初學者先從基本概念開始學習, 本書亦有一篇關於入門資料的文章. 市面上已有大

2020-06-11 04:52:45

softmax函數詳解及誤差反向傳播的梯度求導

摘要本文給出 softmax 函數的定義, 並求解其在反向傳播中的梯度相關配套代碼, 請參考文章 : Python 和 PyTorch 對比實現 softmax 及其反向傳播系列文章索引 : https://blog.cs

2020-06-11 04:52:45

深度學習基礎（一）——反向傳播算法

爱弹ukulele的程序猿

2020-05-30 16:57:32

深度學習基礎（六）—— 批標準化 (Batch Normalization)

爱弹ukulele的程序猿

2020-05-30 16:57:32

24小時熱門文章

最新文章

最新評論文章