【Deep Learning】LSTM(Long Short-Term Memory)及變體

原創

2020-02-20 23:29

通過對RNN理解的基礎上(具體可見：【Deep Learning】循環神經網絡推導和實現)，可以進一步瞭解LSTM（LongShort-Term Memory，其出現的原因是爲了解決RNN對長依賴的句子上表現不好的情況。其本質是通過合理的激活一些信息，避免距離成爲信息強度的決定性因素，目前LSTM除了原來的結構外，還衍生出了很多變體。

一、RNN與LSTM結構圖

通過前一節我們知道RNN的結構圖如下:

LSTM的一般結構：

可以觀察到， LSTM和普通的RNN相比，多了幾個門。在上圖中，各個節點的具體說明如下所示：

二、設計思想

LSTM引入了一個門的概念，設計LSTM的目的就是要通過“門”來控制信息的傳遞，從而能夠實現激活long-term的信息。其中一種簡單的方式就是通過兩個矩陣的點乘，即將兩個大小完全一致的矩陣，對應位置相乘，那麼如果存在一個矩陣的數值範圍是[0,1]，點乘我們就可以理解爲0是抑制對信息不放行，1是激活對信息放行。cell信息的位置就是水平的那條線，如下圖所示：

對於上圖中的每一個x表示的就是點乘，我們可以將其視爲LSTM中的一個門，所以門的存在是爲了阻止/放過信息的。

三、門介紹

①遺忘門，其控制cell的信息傳遞的，而控制cell的信息可以通過上一輪隱藏層的輸出 ht−1和這一輪的輸入xt決定，從名字上可以知道這個一個遺忘門，決定信息是否被記住或者是遺忘掉，所以激活函數爲sigmoid，保證輸出值爲[0,1]，如下圖：

②輸入門，其功能是用來控制在輸入信息中( ht−1,xt )有哪些信息可以加到cell中，可以看到通過輸入信息通過sigmoid函數來設置遺忘門，以及輸入信息通過tanh函數，最終它們進行點乘，達到可以保留相應信息的目的，如下圖：

通過上面的操作，cell的信息更新就完成了，即把上面獲取的信息通過下圖的方式進行操作，如下圖：

③輸出門，到目前爲止，我們已經得到了更新後的cell的信息，輸出門是決定cell中n哪些信息可以得到輸出，同樣先讓輸入信息通過sigmoid函數來設置遺忘門，然後讓cell通過tanh函數，最後進行點乘決定哪些信息可以輸出，如下圖：

至此，純種的LSTM就完成了，可以發現真的不難，下面是一些LSTM的變體。

四、LSTM變體

①允許三個門都能看到cell的信息，即cell中的信息參與到每一個門的創建中，如下圖：

②在信息傳遞的過程中對於cell信息遺忘和保持是相對的，即如果了遺忘一些信息，那麼就相對的另外一部分信息，在邏輯上爲：輸入門 = 1 - 遺忘門，如下圖：

③GRU（Gated RecurrentUnit），這個結構是將cell去掉了，使用 ht−1替代了cell的功能，即cell與輸出ht-1是一樣的，如下圖：

參考：

①Understanding LSTM Networks

發佈了63 篇原創文章 · 獲贊 15 · 訪問量 10萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

在Kaggle上免費使用GPU

Intro Kaggle提供免費訪問內核中的NVidia K80 GPU。該基準測試表明，在深度學習模型的訓練過程中，爲您的內核啓用GPU可實現12.5倍的加速。這個內核是用GPU運行的。我將運行時間與在CPU上訓練相同模型內核的運

2020-07-08 09:08:45

深度學習(1) 關於圖像卷積和卷積神經網絡（CNN)

最近由於項目組需要，需要看一篇文獻“Deep Learning from Temporal Coherence in Video”。本人也聽過一些關於深度學習，CNN方面的報告，但是其實一直都是似懂非懂，完全不瞭解他們口中

2020-07-07 23:19:57

深度學習論文: A Compact Convolutional Neural Network for Surface Defect Inspection及其PyTorch實現

A Compact Convolutional Neural Network for Surface Defect Inspection PDF:https://www.mdpi.com/1424-8220/20/7/1974/x

2020-07-07 17:00:20

深度學習論文: Pyramidal Convolution: Rethinking CNN for Visual Recognition及其PyTorch實現

深度學習論文: Pyramidal Convolution: Rethinking Convolutional Neural Networks for Visual Recognition及其PyTorch實現 Pyramidal

2020-07-07 17:00:17

Stanford-CS231n-assignment1-KNN及Jupyter Notebook配置

一. 配置我使用的是Anaconda帶的Jupyter Notebook，先在http://cs231n.github.io/assignments2019/assignment1/下載assignment1的.zip文件後可以將其解

不跑步就等肥

2020-07-07 15:12:35

Stanford-CS231n-assignment2-FullyConnectedNets

文章目錄1. layers.py2. fc_net.py3. Solver4. optim.py 1. layers.py from builtins import range import numpy as np def a

不跑步就等肥

2020-07-07 15:12:35

【記錄】爲什麼在CNN的Batch Norm中對C個channel進行歸一化

下面是cs231n-assignment2中的Spatial Batch Norm的介紹中對於此處空間歸一化的解釋，爲什麼對shape爲NCHW的圖像數據進行Batch Norm時需要計算NHW維度的mean和var If th

不跑步就等肥

2020-07-07 15:12:31

Kaggle手寫數字識別（Digit Recognizer）記錄

競賽地址 https://www.kaggle.com/c/digit-recognizer 苦於學了cs231n和pytorch之後沒有東西拿來練手，就去kaggle上找了一個入門競賽，MNIST手寫數字識別，這個比賽把MN

不跑步就等肥

2020-07-07 15:12:31

Stanford-CS231n-assignment2-BatchNormalization

文章目錄1- layers.py2- layer_utils.py加入四個求解batch/layer norm的函數3- fc_net.py的完善4- Batchnorm for deep networks訓練結果4.1- bat

不跑步就等肥

2020-07-07 15:12:31

Stanford-CS231n-assignment1-two_layer_net附中文註釋

先記錄一個很好用的畫神經網絡圖的網站：http://alexlenail.me/NN-SVG/index.html 然後因爲對神經網絡的幾個層的名字到底應該標註在哪有點疑惑，現在看了幾段代碼才弄清楚，所以標註在圖上記錄一下，如下圖（激活函

不跑步就等肥

2020-07-07 15:12:31

AlexNet中Local Response Normalization（局部響應歸一化）個人理解

文章目錄1. 公式介紹2. 代碼實現3. cs231n的cifar10數據集測試3.1 簡化AlexNet測試（無LRN）3.2 帶LRN的AlexNet測試3.3 不嚴謹結論 1. 公式介紹首先論文中已經有了公式的介紹，但是剛

不跑步就等肥

2020-07-07 15:12:31

Pytorch搭建神經網絡基本步驟（文末附pytorch實現AlexNet）

文章參考: http://pytorch123.com/SecondSection/neural_networks/ cs231n assignment2 - http://cs231n.github.io/assignment

不跑步就等肥

2020-07-07 15:12:31

博客目錄——TensorFlow學習筆記

更新時間：2019-07-09 這一系列博客是TensorFlow編程知識及源碼閱讀後整理，陸續更新~ TensorFlow學習筆記(一）：變量作用域 TensorFlow學習筆記(二）：常用方法——激活函數 TensorFl

2020-07-07 01:30:56

目標檢測(object detection)系列（十三）CenterNet：no Anchor，no NMS

目標檢測系列：目標檢測(object detection)系列（一） R-CNN：CNN目標檢測的開山之作目標檢測(object detection)系列（二） SPP-Net：讓卷積計算可以共享目標檢測(object d

2020-07-06 20:45:02

Self-Taught Learning

自編碼器是一個三層的feed-forward神經網絡模型，輸入層經過隱含層的特徵表示後再重構出跟輸入層逼近的輸出層，中間的隱含層是特徵表示層，表示對輸入層學習到的特徵，這些特徵可能更好地表示了數據，如果用學到的特徵來訓練數據分

2020-07-06 16:46:46

24小時熱門文章

最新文章

最新評論文章