Gradformer: 通過圖結構歸納偏差提升自注意力機制的圖Transformer

原創

2024-05-02 13:04

這是4月剛剛發佈在arxiv上的論文，介紹了一種名爲“Gradformer”的新型圖Transformer，它在自注意力機制中引入了指數衰減掩碼。以下是主要創新點：

指數衰減掩碼： Gradformer在其自注意力模塊中集成了衰減掩碼。該掩碼隨着圖結構中節點之間的距離減小而呈指數遞減。這種設計使模型能夠在保留遠距離信息捕獲能力的同時，更專注於本地信息。
可學習約束： Gradformer爲衰減掩碼引入了一種可學習的約束，使不同的注意力頭可以學習到不同的掩碼。這使得注意力頭多樣化，提高了模型對圖中多樣結構信息的吸收能力。
歸納偏差的整合： Gradformer的設計將歸納偏差整合到自注意力機制中，增強了它對圖結構化數據的建模能力。與之前僅使用位置編碼或注意力偏差的方法相比，這種整合更有效。
與現有方法的比較： Gradformer在各種數據集上與14種基線模型進行了比較，包括圖神經網絡（GNN）和圖Transformer模型。實驗結果表明，Gradformer在圖分類和迴歸等任務中，始終優於這些模型。
處理深層架構： Gradformer在深層架構中同樣有效，隨着網絡深度的增加，其準確度得以保持甚至增強，這與其他轉換器顯著下降的準確度形成鮮明對比。

Gradformer通過引入帶有可學習約束的指數衰減掩碼，爲圖Transformer提供了一種新的方法，有效地捕捉了圖結構中的本地和全局信息。這種設計將其與之前的模型區分開來，並提高了其在各種任務中的表現。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.