attention is all you need筆記

原創

2019-09-03 00:09

傳統

encoder

輸入：符號序列 x1,…,xn

輸出：連續表示z1,…,zn

decoder

輸入：連續表示z1,…,zn

輸出：符號序列y1,….ym

作者原創

transformer

使用堆疊的self-attention和point-wise,全連接層。（左encoder，右decoder）

transformer結構圖

encoder

由6個相同層堆疊而成。每個層有2個子層，首先是一個multi-head self-attention，接着是一個簡單的position-wise的全連接層，再跟上正則化，另外還有殘差連接。模型中所有的子層輸出以及embedding層的輸出都是512維度，以方便殘差的連接。

decoder

由6個相同層堆疊而成。除了兩個和encoder一樣的子層，還有masking multi-head attention層，同時它也有殘差連接和標準化。

同時，decoder裏的self-attention也被堆疊起來防止當前position注意到之後的position。這個masking，加上輸出embeddings被偏置了一個position，確保了對位置i的預測只會依賴於下標小於i的已知輸出。

attention

attention的定義：匹配一個查詢到一組鍵值對，並將它們輸出。其中，查詢，鍵，值，輸出都是向量。輸出是計算值得到加權和，其中權重被分配到各個值上，權重通過查詢的兼容度函數compatibility function和對應的鍵計算得到。

scaled dot-product attention

輸入：dk維度的queries和keys，dv維度的values

計算所有keys的點積，再除以，並使用softmax函數來獲得值的函數。

同時計算一組queries的attention函數，堆疊到矩陣Q中，keys和values被堆疊到矩陣K和V中，在計算輸出矩陣

常用的兩種attention機制爲additive和dot-product，dot-product和作者的算法等價，除了沒有除以。additive使用前項神經網絡和一個單一的隱含層計算相容性函數。儘管這兩者的理論複雜度相當，但是dot-product的計算速度要快得多，空間效率也要高得多，因爲它能被高度優化的矩陣乘法代碼所實現。

之所以加上除以，是因爲，作者認爲當維度dk變得很大的時候，點積的量級會有很大的增長，從而將softmax推到一個梯度極小的區域裏。爲了抵消這種危害，作者除以了。

multi-head attention

將queries, keys 和 values分別線性投影分h次分別通過不斷學習的投影到不同的dk維度，會比將原來這三者放到一個簡單的attention中的表現要好。對於這些輸入，並行地執行注意力函數，生成dv維度的輸出值。這些輸出再被拼接起來，再次被注入，最終得到最終的值。

Multi-head能夠讓模型聯合注意到，來自不同位置的不同表示子空間的信息。使用單個的attention head，就能抑制這種情況。

實驗中，採用h=8個並行的attention層或heads。對於其中的每一個使用dk = dv = dmodel/h = 64。由於每個head減少了維度，總體的計算損失和，與使用全連接的單個head的attention，基本相當。

Position-wise Feed-Forward Networks

即encoder和decoder中都有的全連接前向網絡，被獨立且相同地應用到每一個位置。它包含了兩個線性變換，並在其中夾了一個relu激活層

不同位置，即不同層的線性變換並不共用參數。

Embeddings and Softmax

詞向量embedding層，線性轉換，softmax機制均可學習。兩個嵌入層和softmax前的線性變換層共用相同的權重矩陣。在嵌入層中，我們把這些權重乘上。

Positional Encoding

沒使用卷積或者循環神經網絡，所以必須體現位置信息，即positional encodings。對於不同的頻率，使用正弦和餘弦函數。

每個位置都是正弦信號。波長從2π到20000π不等。原因：我們假設它將使模型能夠很容易地學習相對位置，因爲對於任何固定偏移量k, P Epos+k都可以表示爲P Epos的線性函數。此外，它可能允許模型推斷出比訓練中遇到的序列長度更長的序列長度。

設計並選擇Self-Attention的原因

每一層的計算複雜度
可並行化的計算量，用序列操作的最小數量來衡量
網絡中長範圍依賴的路徑長度，很重要的一點是前向傳播和反向傳播在網絡中必經路線的長度，它越短則越容易學習到長範圍的依賴。

self-attention的限制版本，只關心各自輸出位置的r的尺寸內的輸入序列。

具體比較如下

此外，self-attention的可解釋性更強。個體的attention head不僅清楚地學會了執行不同的任務，許多attention head還表現出與句子的句法和語義結構相關的行爲。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Faker——NLP造數據神器

Faker——NLP造數據神器寫在前面：開源詞典——funNLP （1）碼雲地址：https://gitee.com/

2020-07-07 21:48:25

代碼+步驟GM（1，1）灰色預測模型-案例長江水質綜合評價賽題-級比檢測C的確定-matlab完整代碼附送

GM（1，1）灰色預測模型-案例長江水質綜合評價賽題第三題-matlab完整代碼附送看到上一篇Blog在短短几天Pageviews就達到了1300多，看來大家還是比較中意建模上的筆記🤭，小白一個，也是是自己在學習上的經驗總結與教

侯永琪在修行

2020-07-08 09:25:15

關係抽取入門級概覽

因爲課題組的需要，過去幾個月一直在學習強化學習和魯棒性算法。再加上忙於課題組中的一些工作，所以過去兩個月基本沒有什麼時間來寫博客。最近讀了不少強化學習和魯棒性算法方面的論文，也有一些小的收穫，等有時間再通過博客分享出來。今天分享的是我近期

2020-07-08 04:10:07

ACL 2018 和 2018 AAAI 接受關於知識圖譜的論文簡述

1.Variational Reasoning for QuestionAnswering with Knowledge Grap 摘要： QA存在的問題：問題存在噪音；需要經過多輪推理才能找到答案。提出基於

垮掉的一代人

2020-07-07 23:44:13

NLP訓練營之問答系統——替換用戶輸入句子中錯誤單詞

替換用戶輸入句子中錯誤單詞構建詞典庫需要生成所有候選集合讀取路透社語料庫構建語言模型：bigram用戶打錯的概率統計 - channel probalility主函數構建詞典庫 # Python rstrip() 刪除 str

2020-07-07 21:48:25

常見的英文文本處理步驟

常見的英文文本處理流程中都包含哪些步驟 1.導入相應的類庫 import nltk from nltk import word_tokenize, sent_tokenize 2.導入數據 corpus = open(‘數據路徑’

2020-07-07 21:45:16

自然語言處理總概括

自然語言處理自然語言處理是什麼自然語言處理(Natural Language Process)就是利用計算機來處理人類語言的學科，屬於計算機與語言學的交叉學科。自然語言處理有哪些技術大致包括如下技術: 1.分詞(Word

2020-07-07 21:45:16

助力句子變換：35W抽象、43W同義、13W簡稱三大知識庫對外開源

句子變換，是指根據給定中文句子，藉助某種語言處理手段，擴展出一定數據規模的中文句子集合，是一個從1到N的過程，目的在於解決搜索（查詢擴展）、分類（樣本擴充）、抽取（數據回標）、推薦與生成（關聯引導）等多個工業級應用任務。我們發現

liuhuanyong_iscas

2020-07-07 20:02:19

NLP實踐-Task1

對cnews數據做一些數據處理 import jieba import pandas as pd import tensorflow as tf from collections import Counter from gensim.m

2020-07-07 14:43:23

CPCY模型_CodingPark編程公園

項目圖紙 https://awwapp.com/b/uo8xhbtbef9cg/ CPCY策劃圖紙-鏈接 https://www.processon.com/view/link/5efde50fe401fd1fd2b

2020-07-07 12:20:22

論文筆記之Structural Deep Network Embedding

本論文是kdd2016的一篇論文主要的目的也是做node embedding。主要的想法就是通過deep autoencode對node進行embedding，不過在在embedding的時候不僅考慮了1-hop的信息而且考慮

2020-07-08 10:23:34

論文筆記之Fully Convolutional Networks for Semantic Segmentation

最近了解到了Image Semantic Segmentation方面的知識，在此做一個記錄。這篇論文是2015cvpr的best paper，可以說是在cnn上做圖像語義分割的開山之作。 1.語義分割定義：語義就是指物體的

2020-07-08 10:23:34

MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications論文閱讀筆記

論文地址：MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications MobileNet是爲移動和嵌入式設備提出的輕量級網絡

2020-07-07 12:29:52

基於attention機制實現 CRNN OCR文字識別

定義網絡結構實現 BahdanauAttention，其中socre的實現方法爲 perceptron 形式 class BahdanauAttention(tf.keras.Model): def __init__(sel

2020-07-08 12:23:28

《Attention is All You Need》論文學習筆記

目錄 Abstract 1. Illustrated Transformer 1.1 A High-level look 1.2 Attention 1.2.1 Scale Dot-Product Attention 1.2.2 Mult

2020-07-07 19:42:34

24小時熱門文章

最新文章

最新評論文章