10 Self-Attention(自注意力機制)


注意力機制

看一個物體的時候,我們傾向於一些重點,把我們的焦點放到更重要的信息上

img

第一眼看到這個圖,不會說把所有的信息全部看完

img

QK 相乘求相似度,做一個 scale(未來做 softmax 的時候避免出現極端情況)

然後做 Softmax 得到概率

新的向量表示了K 和 V(K==V),然後這種表示還暗含了 Q 的信息(於 Q 而言,K 裏面重要的信息),也就是說,挑出了 K 裏面的關鍵點

自-注意力機制(Self-Attention)(向量)

Self-Attention 的關鍵點再於,不僅僅是 K\(\approx\)V\(\approx\)Q 來源於同一個 X,這三者是同源的

通過 X 找到 X 裏面的關鍵點

並不是 K=V=Q=X,而是通過三個參數 \(W_Q,W_K,W_V\)

接下來的步驟和注意力機制一模一樣

  1. Q、K、V的獲取

    1. img
  2. Matmul:

    1. img
  3. Scale+Softmax:

    1. img
  4. Matmul:

    1. img

\(z_1\)表示的就是 thinking 的新的向量表示

對於 thinking,初始詞向量爲\(x_1\)

現在我通過 thinking machines 這句話去查詢這句話裏的每一個單詞和 thinking 之間的相似度

新的\(z_1\)依然是 thinking 的詞向量表示,只不過這個詞向量的表示蘊含了 thinking machines 這句話對於 thinking 而言哪個更重要的信息

img

不做注意力,its 的詞向量就是單純的 its,沒有任何附加信息

也就是說 its 有 law 這層意思,而通過自注意力機制得到新的 its 的詞向量,則會包含一定的 laws 和 application 的信息

自注意力機制(矩陣)

img img img
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章