Google新作Synthesizer:Rethinking Self-Attention in Transformer Models

論文標題:Synthesizer: Rethinking Self-Attention in Transformer Models
論文鏈接https://arxiv.org/abs/2005.00743
前言:自注意力機制算是解釋性比較強的模型之一,它通過直接把序列兩兩比較(代價是計算量變爲 O(n2),當然由於是純矩陣運算,這個計算量相當也不是很嚴重),能夠一步到位捕捉到全局的聯繫。相比之下,RNN 需要一步步遞推才能捕捉到,而 CNN 則需要通過層疊來擴大感受野,這是 Self Attention 層的明顯優勢。
在這裏插入圖片描述
核心發問:自注意力到底是如何生效的?這種“token”對“token”的注意力是必須的嗎?
在這裏插入圖片描述
對於矩陣B,本質上來說它就是 X 裏邊兩兩向量的內積組合,所以稱爲“token對token”的Attention。
解決方案:通過其它方式生成矩陣B(n×n),不用保持“token對token”的形式。
在這裏插入圖片描述

  • Dense形式
    B需要n×n大小,而X是n×d,所以只需要通過簡單的線性變換矩陣d×n即可生成n×n大小:
    在這裏插入圖片描述
  • Random形式
    B隨機初始化,然後可以隨訓練更新或者不更新,R(n×n):
    在這裏插入圖片描述
  • 低秩分解
    上面兩種新形式,往往會面對着參數過多的問題,所以很自然地就想到通過低秩分解來降低參數量。對於Dense和Random,原論文也提出並驗證了對應的低秩分解形式,分別稱爲Factorized Dense和Factorized Random。
    Factorized Dense 通過Dense的方式,生成兩個n×a, n×b的矩陣B1和B2,其中ab=n,然後將B1重複b次,B2重複a次;最後將他們兩逐位相乘。
    在這裏插入圖片描述
    Factorized Random 將原來R(n×n)分成兩個n×k的矩陣相乘。
    在這裏插入圖片描述
  • 混合模式
    連同標準的自注意力方式,目前有5種不同的生成矩陣B的方案,它們可以混合起來共同生成B,係數是可學習參數,相加爲1:
    在這裏插入圖片描述
    實驗結果
    機器翻譯
    在這裏插入圖片描述
    表格結果顯示,除了固定的Random外,所有的自注意力形式表現基本上都差不多,而且就算是固定的Random也有看得過去的效果,這表明以往對自注意力的認知和解釋都太過片面並沒有揭示自注意力生效的真正原因
    摘要對話
    在這裏插入圖片描述
    自動摘要這個任務上,標準注意力效果比較好;但是對話生成這個任務上,結果則反過來:標準的自注意力是最差的,Dense(D)和Random(R)是最好的,而當Dense和Random混合了標準的自注意力後(即 D+V 和 R+V),效果也變差了。這說明標準注意力並沒有什麼“獨佔鰲頭”的優勢,而幾個Synthesizer看起來是標準注意力的“退化”,但事實上它們互不從屬,各有優勢
    預訓練+微調
    在這裏插入圖片描述
    從表中結果可以看出,相比標準自注意力,Dense和Random就顯得遜色了,這表明Dense和Random也許會在單一任務上表現得比較好,而遷移能力則比較弱。但是不能否定的是,像Random這樣的自注意力,由於直接省去了QKT這個矩陣運算,因此計算效率會有明顯提升,因此如果能解決遷移性問題,Transformer模型家族將可能會迎來大換血。

參考文獻:https://zhuanlan.zhihu.com/p/144703680?utm_source=wechat_session&utm_medium=social&utm_oi=865886643385688064

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章