Self-Attention:對於每個詞而言都是無位置關係,把每個詞的順序打亂,得到的注意力值依然不變
通過 t1 告訴你,x1 是在前面,x2 在 x1 的後面
位置編碼
位置編碼公式
位置編碼怎麼用
位置編碼底層解釋
sin(pos+k) = sin(pos)*cos(k) + cos(pos)*sin(k) # sin 表示的是偶數維度
cos(pos+k) = cos(pos)cos(k) - sin(pos)*sin(k) # cos 表示的是奇數維度
他特別在 pos+k 是 pos 和 k 的線性組合
我愛你 ,現在我做第三個詞 “你” 的位置編碼
pos = 3 = 1+2
pos + k = 3 = 1+2 = 1*2+1*2
pos = 10
1+9,2+8,3+7
這句話變成 “你愛我”,現在我們仍然做第三個詞 “我” 的位置編碼
pos = 3 = 1+2
pos + k = 3 = 1+2 = 1*2+1*2