完全圖解RNN、RNN變體、Seq2Seq、Attention機制

原創

2019-06-11 01:38

本文主要是利用圖片的形式，詳細地介紹了經典的RNN、RNN幾個重要變體，以及Seq2Seq模型、Attention機制。希望這篇文章能夠提供一個全新的視角，幫助初學者更好地入門。

一、從單層網絡談起

在學習RNN之前，首先要了解一下最基本的單層網絡，它的結構如圖：

輸入是x，經過變換Wx+b和激活函數f得到輸出y。相信大家對這個已經非常熟悉了。

二、經典的RNN結構（N vs N）

在實際應用中，我們還會遇到很多序列形的數據：

如：

自然語言處理問題。x1可以看做是第一個單詞，x2可以看做是第二個單詞，依次類推。
語音處理。此時，x1、x2、x3……是每幀的聲音信號。
時間序列問題。例如每天的股票價格等等

序列形的數據就不太好用原始的神經網絡處理了。爲了建模序列問題，RNN引入了隱狀態h（hidden state）的概念，h可以對序列形的數據提取特徵，接着再轉換爲輸出。先從h1的計算開始看：

圖示中記號的含義是：

圓圈或方塊表示的是向量。
一個箭頭就表示對該向量做一次變換。如上圖中h0和x1分別有一個箭頭連接，就表示對h0和x1各做了一次變換。

在很多論文中也會出現類似的記號，初學的時候很容易搞亂，但只要把握住以上兩點，就可以比較輕鬆地理解圖示背後的含義。

h2的計算和h1類似。要注意的是，在計算時，每一步使用的參數U、W、b都是一樣的，也就是說每個步驟的參數都是共享的，這是RNN的重要特點，一定要牢記。

依次計算剩下來的（使用相同的參數U、W、b）：

我們這裏爲了方便起見，只畫出序列長度爲4的情況，實際上，這個計算過程可以無限地持續下去。

我們目前的RNN還沒有輸出，得到輸出值的方法就是直接通過h進行計算：

正如之前所說，一個箭頭就表示對對應的向量做一次類似於f(Wx+b)的變換，這裏的這個箭頭就表示對h1進行一次變換，得到輸出y1。

剩下的輸出類似進行（使用和y1同樣的參數V和c）：

OK！大功告成！這就是最經典的RNN結構，我們像搭積木一樣把它搭好了。它的輸入是x1, x2, .....xn，輸出爲y1, y2, ...yn，也就是說，輸入和輸出序列必須要是等長的。

由於這個限制的存在，經典RNN的適用範圍比較小，但也有一些問題適合用經典的RNN結構建模，如：

計算視頻中每一幀的分類標籤。因爲要對每一幀進行計算，因此輸入和輸出序列等長。
輸入爲字符，輸出爲下一個字符的概率。這就是著名的Char RNN（詳細介紹請參考：The Unreasonable Effectiveness of Recurrent Neural Networks，地址：http://karpathy.github.io/2015/05/21/rnn-effectiveness/。Char RNN可以用來生成文章，詩歌，甚至是代碼，非常有意思）。

三、N VS 1

有的時候，我們要處理的問題輸入是一個序列，輸出是一個單獨的值而不是序列，應該怎樣建模呢？實際上，我們只在最後一個h上進行輸出變換就可以了：

這種結構通常用來處理序列分類問題。如輸入一段文字判別它所屬的類別，輸入一個句子判斷其情感傾向，輸入一段視頻並判斷它的類別等等。

四、1 VS N

輸入不是序列而輸出爲序列的情況怎麼處理？我們可以只在序列開始進行輸入計算：

還有一種結構是把輸入信息X作爲每個階段的輸入：

下圖省略了一些X的圓圈，是一個等價表示：

這種1 VS N的結構可以處理的問題有：

從圖像生成文字（image caption），此時輸入的X就是圖像的特徵，而輸出的y序列就是一段句子
從類別生成語音或音樂等

五、N vs M

下面我們來介紹RNN最重要的一個變種：N vs M。這種結構又叫Encoder-Decoder模型，也可以稱之爲Seq2Seq模型。

原始的N vs N RNN要求序列等長，然而我們遇到的大部分問題序列都是不等長的，如機器翻譯中，源語言和目標語言的句子往往並沒有相同的長度。

爲此，Encoder-Decoder結構先將輸入數據編碼成一個上下文向量c：

得到c有多種方式，最簡單的方法就是把Encoder的最後一個隱狀態賦值給c，還可以對最後的隱狀態做一個變換得到c，也可以對所有的隱狀態做變換。

拿到c之後，就用另一個RNN網絡對其進行解碼，這部分RNN網絡被稱爲Decoder。具體做法就是將c當做之前的初始狀態h0輸入到Decoder中：

還有一種做法是將c當做每一步的輸入：

由於這種Encoder-Decoder結構不限制輸入和輸出的序列長度，因此應用的範圍非常廣泛，比如：

機器翻譯。Encoder-Decoder的最經典應用，事實上這一結構就是在機器翻譯領域最先提出的
文本摘要。輸入是一段文本序列，輸出是這段文本序列的摘要序列。
閱讀理解。將輸入的文章和問題分別編碼，再對其進行解碼得到問題的答案。
語音識別。輸入是語音信號序列，輸出是文字序列。
…………

六、Attention機制

在Encoder-Decoder結構中，Encoder把所有的輸入序列都編碼成一個統一的語義特徵c再解碼，因此， c中必須包含原始序列中的所有信息，它的長度就成了限制模型性能的瓶頸。如機器翻譯問題，當要翻譯的句子較長時，一個c可能存不下那麼多信息，就會造成翻譯精度的下降。

Attention機制通過在每個時間輸入不同的c來解決這個問題，下圖是帶有Attention機制的Decoder：

每一個c會自動去選取與當前所要輸出的y最合適的上下文信息。具體來說，我們用衡量Encoder中第j階段的hj和解碼時第i階段的相關性，最終Decoder中第i階段的輸入的上下文信息就來自於所有對的加權和。

以機器翻譯爲例（將中文翻譯成英文）：

輸入的序列是“我愛中國”，因此，Encoder中的h1、h2、h3、h4就可以分別看做是“我”、“愛”、“中”、“國”所代表的信息。在翻譯成英語時，第一個上下文c1應該和“我”這個字最相關，因此對應的就比較大，而相應的、、就比較小。c2應該和“愛”最相關，因此對應的就比較大。最後的c3和h3、h4最相關，因此、的值就比較大。

至此，關於Attention模型，我們就只剩最後一個問題了，那就是：這些權重 aij 是怎麼來的？

事實上， aij同樣是從模型中學出的，它實際和Decoder的第i-1階段的隱狀態、Encoder第j個階段的隱狀態有關。

同樣還是拿上面的機器翻譯舉例， a1j 的計算（此時箭頭就表示對h'和同時做變換）：

a2j 的計算：

a3j的計算：

以上就是帶有Attention的Encoder-Decoder模型計算的全過程。

七、總結

本文主要講了N vs N，N vs 1、1 vs N、N vs M四種經典的RNN模型，以及如何使用Attention結構。希望能對大家有所幫助。

可能有小夥伴發現沒有LSTM的內容，其實是因爲LSTM從外部看和RNN完全一樣，因此上面的所有結構對LSTM都是通用的，想了解LSTM內部結構的可以參考這篇文章：Understanding LSTM Networks（地址：http://colah.github.io/posts/2015-08-Understanding-LSTMs/），寫得非常好，推薦閱讀。

轉載自：雷鋒網(公衆號：雷鋒網) AI科技評論按：本文作者何之源，原文載於知乎專欄AI Insight，AI科技評論獲其授權發佈。

雷鋒網文章鏈接：https://www.leiphone.com/news/201709/8tDpwklrKubaecTa.html

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

關於遊戲付費的一點想法

最近被問到，爲什麼玩原神只花了1000多塊錢，我被問住了，不知該作何反應。這裏打算重新整理一下思路，嘗試回答。首先談談錢，對於一般打工人來說，金錢是勞動的憑證，我們可以用它來兌換其他人的勞動成果。在買斷制、點卡制遊戲中，金錢體現了這種性質

2024-05-01 14:37:05

url重寫重定向所有http網址到https網址

web.config中輸入一下內容 <?xml version="1.0" encoding="UTF-8"?> <configuration> <system.webServer> <rewrite>

2024-05-01 14:30:04

linux導出安裝包

linux導出安裝包 1 背景部署企業內網環境,主機無法連通外網.不能直接使用yum install安裝程序.針對此種情況有如下兩個安裝辦法源碼安裝(需要編譯環境,安裝複雜,容易出錯,不推薦) 使用rpm離線安裝(需要離線安裝包,簡單

2024-05-01 14:29:44

推薦3款程序員常用的畫圖工具

前言經常看到有小夥伴在DotNetGuide技術社區微信交流羣裏問：有什麼好用的畫圖工具推薦的？今天大姚給大家推薦3款程序員日常工作中常用的畫圖工具，大家可以根據自己的需求選擇。 ProcessOn ProcessOn是一款專業強大在線作

2024-05-01 14:25:24

vscode 刷python代碼格式

安裝black format 之後alt+ shift +f即可.

張博的博客

2024-05-01 14:22:13

關於JSON轉字符串後前端與python得到的結果不一致的問題，及對象按key排序

背景：　　哈希碼參數校驗防參數篡改。前端下發接口時對參數按約定祕鑰和邏輯進行加密，後端在獲取到請求後對請求參數以同樣的祕鑰和邏輯加密計算得出哈希值，再與請求的哈希值對比，如果不一致則證明參數被篡改。前端代碼：　　對json對象進行了按

2024-05-01 14:21:43

mycat啓動報錯Could not reserve enough space for 2097152KB object heap

mycat啓動報錯：報錯1：Could not reserve enough space for 2097152KB object heap 找到wrapper.conf修改內存大小爲1G # Initial Java Heap

2024-05-01 14:15:42

《最新出爐》系列入門篇-Python+Playwright自動化測試-42-強大的可視化追蹤利器Trace Viewer

1.簡介在我們日常執行自動化測試工作的過程中，經常會遇到一些偶發性的bug，但是因爲bug是偶發性的，我們不一定每次執行都能復現，所以我們在測試執行的時候，追蹤用例執行就變得非常重要了。playwright提供了一個Playwright

2024-05-01 14:14:41

前端使用 Konva 實現可視化設計器（8）- 預覽框

請大家動動小手，給我一個免費的 Star 吧~ 大家如果發現了明顯的 Bug，可以提 Issue 喲~ 這一章我們實現一個預覽框，實時、可交互定位的。 github源碼 gitee源碼示例地址預覽框定位方法移動畫布，將傳入

2024-05-01 14:08:11

大數據怎麼學？對大數據開發領域及崗位的詳細解讀，完整理解大數據開發領域技術體系

經常有小夥伴和我諮詢大數據怎麼學，我覺得有必要寫一下關於大數據開發的具體方向，下次就不用苦哈哈的打字回覆了。直接回覆文章。 1.大數據崗位劃分我們通常說的大數據開發主要分爲三大方向： 1.1數據平臺開發工程師主要從事後端開發，結合Had

2024-05-01 14:06:40

如何使用python發郵件

import smtplib from email.mime.multipart import MIMEMultipart from email.mime.text import MIMEText def send_email(send

2024-05-01 14:06:10

我通過CKA和CKS啦！

作爲一個運維狗，考下Kubernetes認證可以說是職業基本素養之一了。我是去年6月買的bundle，當時打了6折，435刀(摺合人民幣3100多），晃悠大半年才發現再不考就過期了，所以開始着手準備。肝了一段時間，總算拿下雙證！可喜可賀

2024-05-01 14:04:30

.NET 中使用 GaussDB C# ORM

openGauss(GaussDB ) openGauss是一款全面友好開放，攜手夥伴共同打造的企業級開源關係型數據庫。openGauss採用木蘭寬鬆許可證v2發行，提供面向多核架構的極致性能、全鏈路的業務、數據安全、基於AI的調優和高效運

2024-05-01 14:03:39

.NET中使用 openGauss C# ORM

openGauss(GaussDB ) openGauss是一款全面友好開放，攜手夥伴共同打造的企業級開源關係型數據庫。openGauss採用木蘭寬鬆許可證v2發行，提供面向多核架構的極致性能、全鏈路的業務、數據安全、基於AI的調優和高效運

2024-05-01 14:03:39

基於SSM的校園論壇網站系統畢業設計論文【範文】

摘要隨着信息技術的不斷進步與深入應用，校園論壇系統作爲高校師生信息交流、知識共享和意見交換的重要網絡平臺，其作用日益凸顯。基於此背景，本畢業設計論文旨在開發一個基於SSM（Spring + Spring MVC + MyBatis）框架的

2024-05-01 14:03:29

24小時熱門文章

最新文章

最新評論文章