attention 理解根據pytorch教程seq2seq源碼

原創

2018-08-21 21:56

https://blog.csdn.net/wuzqchom/article/details/75792501

http://baijiahao.baidu.com/s?id=1587926245504773589&wfr=spider&for=pc

這是李宏毅老師的ppt。右側對應pytorch seq2seq源碼。

我們的問題是，左邊的數學符號，右側的代碼是如何對應的？

1、不是embedding，而是encoder的output ，如源碼中的output。

爲什麼是output而不是hidden呢？這要從之後的train函數中看出。

train函數中設置了一個大的，全是零的encoder_outputs的矩陣，紅線部分將encoder_output存儲起來，而hidden只是在不斷的循環。從PPT可以看出來，每次是需要全部的h1,h2,h3,h4........，那麼肯定使用了encoder_outputs 這個大大的矩陣。故是output對應，而不是hidden。

其次注意，這裏的GRU，seq長度只是1。它的序列的擴展是通過train函數的for循環，依次遍歷每個單詞，來進行序列方向上的擴展。

2、李宏毅老師match函數，在源碼中是怎麼實現的？回答：是通過定義的一層神經網絡來實現的。

.

可以看出來，解碼器有個self.attn的線性層，這個線性層就是我們要找的match函數。爲什麼呢？看attendecoderRNN的forward中，拼接兩個向量，再進行linear層，且函數名是attn_weights。正好對應的上面綠色箭頭的*2

所以，這裏的attn_weights就是

3、又對應什麼呢？答，對應代碼是：

torch.bmm是batch 的乘法操作，即1*1*10 與1*10*256的矩陣會變成1*1*256

4、是什麼呢？答Z0是encoder的最後一個輸出隱藏層encoder_hidden。爲什麼呢？依舊從源碼看出來

在for循環第一遍輸入的時候，就將decoder_hidden送入其中。對應decoder的輸入參數

而decoder_hidden又是編碼器最後一個狀態輸出。所以李宏毅老師說的initial_memory，我認爲就是編碼器最後一個隱藏狀態。

5、Z1又是什麼？回答是 attn_weight 與輸入的德文單詞的詞向量相乘後的結果。注意，train的時候可以使用真實的單詞，即teaching forcing，故是正確標註的德文向量。如果不開啓的話，則將預測的德文單詞作爲輸入，轉換成embedding向量與attn_weight進行操作。對應的代碼是這一行：

6、那麼PPT上的輸出翻譯後的單詞對應代碼哪一塊呢？

這個箭頭，對應的

這個箭頭，對應的

因爲使用了GRU。：）

以上只是個人理解，請指出錯誤

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

iNeuOS工業互聯網操作系統，增加電力IEC104協議

1. 概述... 2 2. 配置IEC104協議設備驅動... 2 1. 概述　　IEC60870-5-104 是一種電力自動化系統中常用的通信協議，使用 TCP/IP 協議作爲底層通信協議，用於監視和控制電

唯笑志在-ineuos.net

2024-05-29 14:29:22

【Mac】前後端分離項目（springboot + vue）用nginx部署

步驟 npm run build 把項目打包到dist目錄下。新建vue.config.js const { defineConfig } = require('@vue/cli-service') module.exports = d

金大鑫要堅持

2024-05-29 14:27:52

圖牀PicGo

https://github.com/Molunerfinn/PicGo https://github.com/Molunerfinn/PicGo

2024-05-29 14:25:52

微服務實踐k8s&dapr開發部署實驗（3）訂閱發佈

自託管模式運行dapr 新建訂閱webapi項目,取名爲backend 項目增加docker支持，取消https支持修改Program.cs var builder = WebApplication.CreateBuilder(args)

2024-05-29 14:25:52

編程循環（2024-5-29）

找了下go的介紹，看了一下爲什麼處理併發好。有小線程和通道。小線程是在線程的基礎上，go自己維護的線程，減少線程切換的開銷和更靈活分配空間。通道可以在線程之間通訊，是個先進先出的管道，大概是收到數據就觸發繼續執行，就像等待系統輸入一樣

2024-05-29 14:24:02

向量數據庫HNSW算法

向量數據庫構建好embedding後，需要通過相關算法進行檢索，它常用到的相似性搜索算法有HNSW，HNSW算法是NSW算法改進而來,它是屬於ANN算法中不同類別的圖類別中的一種。節點與節點之間的連接方式可以形成3類圖：正則圖，隨

人不瘋狂枉一生

2024-05-29 14:23:51

一個 .NET 開源的地圖組件庫 - Mapsui

前言今天大姚給大家分享一個.NET開源（MIT License）、免費、同時支持多平臺框架（MAUI、WPF、Avalonia、Uno、Blazor、WinUI、Eto、.NET Android 和 .NET iOS）地圖組件庫：Maps

2024-05-29 14:22:51

Windows下的mysql安裝(解壓版)

Windows 安裝並配置 MySQL 5.6_mysql 5.6 安裝-CSDN博客

2024-05-29 14:22:31

AI 畫圖真刺激，手把手教你如何用 ComfyUI 來畫出刺激的圖

目前 AI 繪畫領域的產品非常多，比如 Midjourney、Dalle3、Stability AI 等等，這些產品大體上可以分爲兩類：模型與產品深度融合：比如 Midjourney、Dalle3 等等。模型與產品分離：比如 SD W

米開朗基楊

2024-05-29 14:22:21

huggingface 下載與訓練模型時會報 SSLERROR 連接錯誤，解決辦法如下

我用方案一解決解決方案方案1：使用代理（需要梯子）在你的 Python 代碼的開頭加上如下代碼 import os os.environ['HTTP_PROXY'] = 'http://proxy_ip_address:port'

2024-05-29 14:19:51

（三）SQL基礎-設置主鍵爲自增序列

一、如何設置主鍵爲自增標誌注意：這個設置必須要在創建表之前設置好，不然會報錯無法修改。

代號六零一

2024-05-29 14:18:10

《最新出爐》系列入門篇-Python+Playwright自動化測試-49-Route類攔截修改請求-下篇

1.簡介在日常工作和學習中，自動化測試的時候：在加載頁面時，可能頁面出現很多不是很重要或者不是我們所關注的，這個時候我們就可以選擇不加載這些內容，以提高頁面加載速度，節省資源。例如：可能頁面上圖片比較多，而我們又不關心圖片內容。那麼，在

2024-05-29 14:15:30

springboot~封裝依賴引用包jar還是pom，哪種更規範

將多個第三方包封裝成一個項目後，如果你的目的是讓其他開發人員可以直接引用這些依賴，一般來說有兩種常見的方式：打成JAR包：將封裝好的項目編譯打包成JAR文件，其他開發人員可以將這個JAR文件添加到他們的項目中，並在項目的構建工具（比如

2024-05-29 14:13:20

kbgressdb之數據結構V0.2

前言原本計劃2024.05.01日開始編碼，直到2024.05.21日纔開始編碼，因爲在2024.05.19日才感覺體力恢復到了九成，然後就開始kbgressdbV0.2版本設計，經過一週的推演與構思，終於在2024.05.29日完成V0

2024-05-29 14:11:40

css03 CSS Selectors

https://www.w3schools.com/css/css_selectors.asp A CSS selector selects the HTML element(s) you want to style. CSS Selec

2024-05-29 14:11:29

24小時熱門文章

最新文章

最新評論文章