Google新作Synthesizer:Rethinking Self-Attention in Transformer Models

論文標題：Synthesizer: Rethinking Self-Attention in Transformer Models
論文鏈接：https://arxiv.org/abs/2005.00743
前言：自注意力機制算是解釋性比較強的模型之一，它通過直接把序列兩兩比較（代價是計算量變爲 O(n²)，當然由於是純矩陣運算，這個計算量相當也不是很嚴重），能夠一步到位捕捉到全局的聯繫。相比之下，RNN 需要一步步遞推才能捕捉到，而 CNN 則需要通過層疊來擴大感受野，這是 Self Attention 層的明顯優勢。

核心發問：自注意力到底是如何生效的？這種“token”對“token”的注意力是必須的嗎？

對於矩陣B，本質上來說它就是 X 裏邊兩兩向量的內積組合，所以稱爲“token對token”的Attention。
解決方案：通過其它方式生成矩陣B（n×n），不用保持“token對token”的形式。

Dense形式
B需要n×n大小，而X是n×d，所以只需要通過簡單的線性變換矩陣d×n即可生成n×n大小：
Random形式
B隨機初始化，然後可以隨訓練更新或者不更新，R（n×n）：
低秩分解
上面兩種新形式，往往會面對着參數過多的問題，所以很自然地就想到通過低秩分解來降低參數量。對於Dense和Random，原論文也提出並驗證了對應的低秩分解形式，分別稱爲Factorized Dense和Factorized Random。
Factorized Dense 通過Dense的方式，生成兩個n×a, n×b的矩陣B1和B2，其中ab=n，然後將B1重複b次，B2重複a次；最後將他們兩逐位相乘。

Factorized Random 將原來R（n×n）分成兩個n×k的矩陣相乘。
混合模式
連同標準的自注意力方式，目前有5種不同的生成矩陣B的方案，它們可以混合起來共同生成B，係數是可學習參數，相加爲1：

實驗結果
機器翻譯

表格結果顯示，除了固定的Random外，所有的自注意力形式表現基本上都差不多，而且就算是固定的Random也有看得過去的效果，這表明以往對自注意力的認知和解釋都太過片面，並沒有揭示自注意力生效的真正原因。
摘要對話

在自動摘要這個任務上，標準注意力效果比較好；但是對話生成這個任務上，結果則反過來：標準的自注意力是最差的，Dense（D）和Random（R）是最好的，而當Dense和Random混合了標準的自注意力後（即 D+V 和 R+V），效果也變差了。這說明標準注意力並沒有什麼“獨佔鰲頭”的優勢，而幾個Synthesizer看起來是標準注意力的“退化”，但事實上它們互不從屬，各有優勢。
預訓練+微調

從表中結果可以看出，相比標準自注意力，Dense和Random就顯得遜色了，這表明Dense和Random也許會在單一任務上表現得比較好，而遷移能力則比較弱。但是不能否定的是，像Random這樣的自注意力，由於直接省去了QK^T這個矩陣運算，因此計算效率會有明顯提升，因此如果能解決遷移性問題，Transformer模型家族將可能會迎來大換血。