上節課回顧
0:40
Attention
Self-Attention
Self-Attention 其實是 Attention 的一個具體做法
給定一個 X,通過自注意力模型,得到一個 Z,這個 Z 就是對 X 的新的表徵(詞向量),Z 這個詞向量相比較 X 擁有了句法特徵和語義特徵
Multi-Head Self-Attention(多頭自注意力)
Z 相比較 X 有了提升,通過 Multi-Head Self-Attention,得到的 \(Z{'}\) 相比較 Z 又有了進一步提升
多頭自注意力,問題來了,多頭是什麼,多頭的個數用 h 表示,一般\(h=8\),我們通常使用的是 8 頭自注意力
什麼是多頭
如何多頭 1
對於 X,我們不是說,直接拿 X 去得到 Z,而是把 X 分成了 8 塊(8 頭),得到 Z0-Z7
如何多頭 2
然後把 Z0-Z7 拼接起來,再做一次線性變換(改變維度)得到 Z
有什麼作用?
機器學習的本質是什麼:y=\(\sigma\)(wx+b),在做一件什麼事情,非線性變換(把一個看起來不合理的東西,通過某個手段(訓練模型),讓這個東西變得合理)
非線性變換的本質又是什麼?改變空間上的位置座標,任何一個點都可以在維度空間上找到,通過某個手段,讓一個不合理的點(位置不合理),變得合理
這就是詞向量的本質
one-hot 編碼(0101010)
word2vec(11,222,33)
emlo(15,3,2)
attention(124,2,32)
multi-head attention(1231,23,3),把 X 切分成 8 塊(8 個子空間),這樣一個原先在一個位置上的 X,去了空間上 8 個位置,通過對 8 個點進行尋找,找到更合適的位置
詞向量的大小是 512
假設你的任務,視頻向量是 5120,80
對計算機的性能提出了要求