Transformer、多頭自注意力機制論文筆記：Attention is all you need

原創

2020-02-20 21:54

論文中心思想：提出了一種只使用注意力機制的模型，模型中沒有結合任何RNN或CNN，通過encoder--decoder的模型實現出了一種強力有效的模型。

引言與背景

在注意力機制誕生後，誕生了多種改進的模型，但是這些模型一般都是把注意力機制與循環神經網絡結合（包括一些改良的，如LSTM），但是這些模型有個弊端，就是並行計算能力不強，爲解決這一些問題，論文提出了一種僅基於注意力機制的模型，具有強大的並行計算性以及效果很好。

模型結構

總的模型結構爲encoder-decoder，在編碼器中，把符號表示的輸入序列映射爲連續的表示，得到了z之後，解碼器生成符號輸出序列，一次一個地生成。

模型結構圖：

編碼解碼器：

Encoder：編碼器由6層一樣的層組成，每一層有兩個子層。第一層是一個多頭自注意力機制，另一層是一個簡單的全連接前饋網絡。在標準化層之後，這兩層各自都採用一個殘差連接，每一個子層的輸出是,其中是子層本身實現的函數。爲了優化這些殘差裂解，模型中的所有子層以及嵌入層都生成維度512的輸出。

Decoder：解碼器也是6層一樣的層組成的，出來2個在每個編碼器中的子層，第三個是在編碼器輸出後面的一個多頭自注意力層。與編碼器類似，每一個子層標準化後都用一個殘差連接包圍。還有一個爲了保證序列信息的掩蓋層。

注意力

一個注意力函數其實就是把一個query，一個key-value的集合（關於query，key，value可以看這篇論文：Key-Value Memory Networks for Directly Reading Documents）映射成一個輸出，其中query，key，value，output都是向量。輸出其實是values的加權求和，其中分配給每個值的權重通過一個相關函數計算query與當前key的相關程度。

縮放點乘積注意力

輸入包括：querie和key都是維，value爲維，

計算query和所有key的點積後，除以 $\sqrt{d_k}$ (爲了防止梯度消失)，以及用一個softmax函數得到全美一個value的權重。

事實上，計算的時候通過矩陣實現並行計算。

$Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})V$

使用點成的原因是因爲可以通過一些高效的優化手法提升速度。

多頭注意力

其實就是把多個自注意力連起來

同時，通過減低維度來減少總就算消耗。

全連接前饋網絡

Transformer中所有全連接網絡都是一樣的，由兩個線性轉換和中間一個RELU函數組成。

位置編碼

因爲模型沒有使用卷積或者循環結構，爲了使用到序列中的順序信息，必須增加相對或絕對位置信息。爲此論文加入了位置編碼在編碼器和解碼器的下方。

$PE_{(pos,2i)}=sin(pos/10000^{2i/d_{model}})$

$PE_{(pos,2i+1)}=cos(pos/10000^{2i/d_{model}})$

其中，pos是位置，i是維度

發佈了56 篇原創文章 · 獲贊 38 · 訪問量 4萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

論文筆記之Structural Deep Network Embedding

本論文是kdd2016的一篇論文主要的目的也是做node embedding。主要的想法就是通過deep autoencode對node進行embedding，不過在在embedding的時候不僅考慮了1-hop的信息而且考慮

2020-07-08 10:23:34

論文筆記之Fully Convolutional Networks for Semantic Segmentation

最近了解到了Image Semantic Segmentation方面的知識，在此做一個記錄。這篇論文是2015cvpr的best paper，可以說是在cnn上做圖像語義分割的開山之作。 1.語義分割定義：語義就是指物體的

2020-07-08 10:23:34

MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications論文閱讀筆記

論文地址：MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications MobileNet是爲移動和嵌入式設備提出的輕量級網絡

2020-07-07 12:29:52

【Paper Note】Representation Learning-Assisted Click-Through Rate Prediction (DeepMCP) 論文詳解

https://arxiv.org/pdf/1906.04365.pdf 背景以往的點擊率預估模型像FM系列、WDN等模型，都只是考慮特徵和ctr之間的聯繫，阿里的這篇論文，提出了DeepMCP模型，不僅考慮了特徵和ctr之間

2020-07-07 01:30:56

論文筆記——Federated learning framework for mobile edge computing networks

論文筆記——Federated learning framework for mobile edge computing networks 本論文着重研究的是聯邦學習應用於需求預測類問題。一般來說，FL存在的一些問題：非獨立同分布數據

2020-07-06 10:38:33

WWW19 A First Look at Deep Learning Apps on Smartphones

這篇文章有點像行業調查，對目前市場上APP中DL的各個特性進行統計，調研時間從2018.06 ～ 2018.09 大約三個月的時間，作者也說了後續會繼續跟進。作者製作了一個可以嗅探Android apk中DL的軟件，同時對APP

2020-07-06 03:56:57

【論文筆記-AAAI2020】Overcoming Language Priors in VQA via Decomposed Linguistic Representations

這篇博客會大概講解一下論文的工作，以及一些VQA 領域的近況，也會涉及到一些自己的見解。一些容易誤解的地方，我會盡量的表達細緻，方便讀者理解。如果需要深入研究，推薦自行再品讀該論文：https://jingchenchen.git

2020-07-05 19:21:39

[NIPS 2019] Multi-Agent Common Knowledge Reinforcement Learning筆記

文章目錄前言IntroductionProblem settingCommon knowledgeLearning under common knowledge (LuCK)Field-of-view common knowled

强殖装甲凯普

2020-07-05 06:05:25

【論文筆記】TensorFlow深度神經網絡提前穩定特徵重要性

論文地址：Early Stabilizing Feature Importance for TensorFlow Deep Neural Networks 博客裏只給出一下論文中介紹的方法這一章節，論文中前面介紹了神經網絡中特徵

2020-07-05 01:13:40

【論文筆記】CUSBoost：基於聚類的提升下采樣的非平衡數據分類

原論文地址：CUSBoost: Cluster-based Under-sampling with Boosting for Imbalanced Classification Abstract 普通的機器學習方法，對於非平衡數據

2020-07-05 01:13:30

【論文筆記】Deep Survival: A Deep Cox Proportional Hazards Network

相關資源原論文地址：here 論文中使用的深度生存分析庫：DeepSurv，是基於Theano 和 Lasagne庫實現的，支持訓練網絡模型，預測等功能。考慮到DeepSurv庫中存在着一些錯誤以及未實現的功能，博主使用目前主

2020-07-05 01:13:29

論文筆記2：A Single Model CNN for Hyperspectral Image Denoising

2020-07-04 23:28:40

unsupervised image segmentation by backpropagation-論文筆記

這是一個有趣的非監督分割方法代碼短小精悍直接說算法 1.首先對原圖進行超像素分割。 2.使用卷積網絡進行正向傳播。網絡輸出100channel，輸出和輸入大小相同。也就是說，每個輸入像素對應輸出100個像素。這10

2020-07-04 18:40:16

Scaling Up Crowd-Sourcing to Very Large Datasets: A Case for Active Learning-筆記

通過Active Learning（AL）算法，找到最小的需要標註的數據進行訓練，來標記未標記的數據。 AL必須滿需下邊的需求才能作爲crowd-sourced database的默認的最優策略： Generality

2020-07-04 18:40:16

Bootstrap-Scaling Up Crowd-Sourcing to Very Large Datasets: A Case for Active Learning

論文Scaling Up Crowd-Sourcing to Very Large Datasets A Case for Active Learning對bootstrap做了介紹。原書（B. Efron and R. J.

2020-07-04 18:40:16

24小時熱門文章

Wireshark 安裝+使用（一）

最新文章

最新評論文章