13 Multi-Head Self-Attention(從空間角度解釋爲什麼做多頭)


上節課回顧

0:40

Attention

img

Self-Attention

Self-Attention 其實是 Attention 的一個具體做法

給定一個 X,通過自注意力模型,得到一個 Z,這個 Z 就是對 X 的新的表徵(詞向量),Z 這個詞向量相比較 X 擁有了句法特徵和語義特徵

img

Multi-Head Self-Attention(多頭自注意力)

Z 相比較 X 有了提升,通過 Multi-Head Self-Attention,得到的 \(Z{'}\) 相比較 Z 又有了進一步提升

多頭自注意力,問題來了,多頭是什麼,多頭的個數用 h 表示,一般\(h=8\),我們通常使用的是 8 頭自注意力

什麼是多頭

img

如何多頭 1

img

對於 X,我們不是說,直接拿 X 去得到 Z,而是把 X 分成了 8 塊(8 頭),得到 Z0-Z7

如何多頭 2

然後把 Z0-Z7 拼接起來,再做一次線性變換(改變維度)得到 Z

img

有什麼作用?

機器學習的本質是什麼:y=\(\sigma\)(wx+b),在做一件什麼事情,非線性變換(把一個看起來不合理的東西,通過某個手段(訓練模型),讓這個東西變得合理)

非線性變換的本質又是什麼?改變空間上的位置座標,任何一個點都可以在維度空間上找到,通過某個手段,讓一個不合理的點(位置不合理),變得合理

這就是詞向量的本質

one-hot 編碼(0101010)

word2vec(11,222,33)

emlo(15,3,2)

attention(124,2,32)

multi-head attention(1231,23,3),把 X 切分成 8 塊(8 個子空間),這樣一個原先在一個位置上的 X,去了空間上 8 個位置,通過對 8 個點進行尋找,找到更合適的位置

詞向量的大小是 512

假設你的任務,視頻向量是 5120,80

對計算機的性能提出了要求

多頭流程圖

img
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章