1001 Attention 和 Self-Attention 的區別(還不能區分我就真的無能爲力了)

通過 pytorch 去構建一個 transformer 的框架

不是導包,不是調包俠

注意力機制是一個很寬泛(宏大)的一個概念,QKV 相乘就是注意力,但是他沒有規定 QKV是怎麼來的

通過一個查詢變量 Q,去找到 V 裏面比較重要的東西

假設 K==V,然後 QK 相乘求相似度A,然後 AV 相乘得到注意力值Z,這個 Z 就是 V 的另外一種形式的表示

Q 可以是任何一個東西,V 也是任何一個東西, K往往是等同於 V 的(同源),K和 V 不同源不相等可不可以

他沒有規定 QKV 怎麼來,他只規定 QKV 怎麼做

注意力機制

img

自注意力機制

自注意力機制,特別狹隘,屬於注意力機制的,注意力機制包括自注意力機制的

本質上 QKV 可以看做是相等的

對於一個詞向量(不一定準確),做的是空間上的對應,乘上了參數矩陣,依然代表 X

不僅規定了 QKV 同源,而且固定了 QKV 的做法

img

交叉注意力機制

Q 和 V 不同源,但是 K 和 V 同源

cyd 注意力機制

Q 和 V 同源,Q 和 K 不同源

xxx 注意力機制

Q 必須爲 1,K 和 V 不同源

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章