13 Multi-Head Self-Attention（從空間角度解釋爲什麼做多頭）

原創

鹹魚Chen

2022-07-13 13:32

博客配套視頻鏈接: https://space.bilibili.com/383551518?spm_id_from=333.1007.0.0 b 站直接看

配套 github 鏈接：https://github.com/nickchen121/Pre-training-language-model

配套博客鏈接：https://www.cnblogs.com/nickchen121/p/15105048.html

上節課回顧

0：40

Attention

Self-Attention

Self-Attention 其實是 Attention 的一個具體做法

給定一個 X，通過自注意力模型，得到一個 Z，這個 Z 就是對 X 的新的表徵（詞向量），Z 這個詞向量相比較 X 擁有了句法特徵和語義特徵

Multi-Head Self-Attention（多頭自注意力）

Z 相比較 X 有了提升，通過 Multi-Head Self-Attention，得到的 \(Z{'}\) 相比較 Z 又有了進一步提升

多頭自注意力，問題來了，多頭是什麼，多頭的個數用 h 表示，一般\(h=8\)，我們通常使用的是 8 頭自注意力

什麼是多頭

如何多頭 1

對於 X，我們不是說，直接拿 X 去得到 Z，而是把 X 分成了 8 塊（8 頭），得到 Z0-Z7

如何多頭 2

然後把 Z0-Z7 拼接起來，再做一次線性變換（改變維度）得到 Z

有什麼作用？

機器學習的本質是什麼：y=\(\sigma\)(wx+b)，在做一件什麼事情，非線性變換（把一個看起來不合理的東西，通過某個手段（訓練模型），讓這個東西變得合理）

非線性變換的本質又是什麼？改變空間上的位置座標，任何一個點都可以在維度空間上找到，通過某個手段，讓一個不合理的點（位置不合理），變得合理

這就是詞向量的本質

one-hot 編碼（0101010）

word2vec（11，222，33）

emlo（15，3，2）

attention（124，2，32）

multi-head attention（1231，23，3），把 X 切分成 8 塊（8 個子空間），這樣一個原先在一個位置上的 X，去了空間上 8 個位置，通過對 8 個點進行尋找，找到更合適的位置

詞向量的大小是 512

假設你的任務，視頻向量是 5120，80

對計算機的性能提出了要求

多頭流程圖

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

13 Multi-Head Self-Attention（從空間角度解釋爲什麼做多頭）

上節課回顧

Attention

Self-Attention

Multi-Head Self-Attention（多頭自注意力）

多頭流程圖

23 導師不敢和你說的開題報告寫法

21 如何寫出一篇高質量的sci水文

12 水論文如何吹一個好故事

11 導師讓你造航母怎麼辦？

導師不敢和你說的水論文隱藏技巧，只教你水論文

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結