注意力機制
看一個物體的時候,我們傾向於一些重點,把我們的焦點放到更重要的信息上
第一眼看到這個圖,不會說把所有的信息全部看完
QK 相乘求相似度,做一個 scale(未來做 softmax 的時候避免出現極端情況)
然後做 Softmax 得到概率
新的向量表示了K 和 V(K==V),然後這種表示還暗含了 Q 的信息(於 Q 而言,K 裏面重要的信息),也就是說,挑出了 K 裏面的關鍵點
自-注意力機制(Self-Attention)(向量)
Self-Attention 的關鍵點再於,不僅僅是 K\(\approx\)V\(\approx\)Q 來源於同一個 X,這三者是同源的
通過 X 找到 X 裏面的關鍵點
並不是 K=V=Q=X,而是通過三個參數 \(W_Q,W_K,W_V\)
接下來的步驟和注意力機制一模一樣
-
Q、K、V的獲取
-
Matmul:
-
Scale+Softmax:
-
Matmul:
\(z_1\)表示的就是 thinking 的新的向量表示
對於 thinking,初始詞向量爲\(x_1\)
現在我通過 thinking machines 這句話去查詢這句話裏的每一個單詞和 thinking 之間的相似度
新的\(z_1\)依然是 thinking 的詞向量表示,只不過這個詞向量的表示蘊含了 thinking machines 這句話對於 thinking 而言哪個更重要的信息
不做注意力,its 的詞向量就是單純的 its,沒有任何附加信息