Attention is All you Need Transformer模型簡記

文章要點：

以機器翻譯爲例解析transformer，其實分爲兩個sublayer，一個是multi-head attention，另外一個是 feed foward。兩個sublayer都用了殘差連接和lyaernorm。

attention一共有三種。

以第三種爲例：

一般情況下K和V相同，核心思想都是計算目標和源的相似度，softmax得到得分，然後點乘V，得到加權後的結果。

大概有拼接加權（適用於大數據），變維相乘，和點乘等。

然後到了multi-head。

本質上就是對不同的head實現不同的線性轉換，每個head表示獨特的信息，假設原來的維度是[batch, max_seq_len, dim]

論文中用了head=8, dim=512(詞向量維度),dk-dv-domodel/h=64

我們先轉換成dim/head = 512/8 = 64，輸入點乘[512, 64]，變成[batch, max_seq, 64]

這樣操作8次就得到[batch, 8, max_seq_len, 64]，這也就是multi-head attention

然後接下來就是線性加權，點乘一個[h*dv,dim]的權重矩陣，會發現數據被還原成[batch, max_seq_len, dim]，但這是加了attention權重之後的結果啦。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.