10 Self-Attention（自注意力機制）

原創

2022-07-14 13:26

注意力機制

看一個物體的時候，我們傾向於一些重點，把我們的焦點放到更重要的信息上

第一眼看到這個圖，不會說把所有的信息全部看完

QK 相乘求相似度，做一個 scale（未來做 softmax 的時候避免出現極端情況）

然後做 Softmax 得到概率

新的向量表示了K 和 V（K==V），然後這種表示還暗含了 Q 的信息（於 Q 而言，K 裏面重要的信息），也就是說，挑出了 K 裏面的關鍵點

自-注意力機制（Self-Attention）（向量）

Self-Attention 的關鍵點再於，不僅僅是 K\(\approx\)V\(\approx\)Q 來源於同一個 X，這三者是同源的

通過 X 找到 X 裏面的關鍵點

並不是 K=V=Q=X，而是通過三個參數 \(W_Q,W_K,W_V\)

接下來的步驟和注意力機制一模一樣

\(z_1\)表示的就是 thinking 的新的向量表示

對於 thinking，初始詞向量爲\(x_1\)

現在我通過 thinking machines 這句話去查詢這句話裏的每一個單詞和 thinking 之間的相似度

新的\(z_1\)依然是 thinking 的詞向量表示，只不過這個詞向量的表示蘊含了 thinking machines 這句話對於 thinking 而言哪個更重要的信息

不做注意力，its 的詞向量就是單純的 its，沒有任何附加信息

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.