通過 pytorch 去構建一個 transformer 的框架
不是導包,不是調包俠
注意力機制是一個很寬泛(宏大)的一個概念,QKV 相乘就是注意力,但是他沒有規定 QKV是怎麼來的
通過一個查詢變量 Q,去找到 V 裏面比較重要的東西
假設 K==V,然後 QK 相乘求相似度A,然後 AV 相乘得到注意力值Z,這個 Z 就是 V 的另外一種形式的表示
Q 可以是任何一個東西,V 也是任何一個東西, K往往是等同於 V 的(同源),K和 V 不同源不相等可不可以
他沒有規定 QKV 怎麼來,他只規定 QKV 怎麼做
注意力機制
自注意力機制
自注意力機制,特別狹隘,屬於注意力機制的,注意力機制包括自注意力機制的
本質上 QKV 可以看做是相等的
對於一個詞向量(不一定準確),做的是空間上的對應,乘上了參數矩陣,依然代表 X
不僅規定了 QKV 同源,而且固定了 QKV 的做法
交叉注意力機制
Q 和 V 不同源,但是 K 和 V 同源
cyd 注意力機制
Q 和 V 同源,Q 和 K 不同源
xxx 注意力機制
Q 必須爲 1,K 和 V 不同源