Gradformer: 通過圖結構歸納偏差提升自注意力機制的圖Transformer

這是4月剛剛發佈在arxiv上的論文,介紹了一種名爲“Gradformer”的新型圖Transformer,它在自注意力機制中引入了指數衰減掩碼。以下是主要創新點:

  1. 指數衰減掩碼: Gradformer在其自注意力模塊中集成了衰減掩碼。該掩碼隨着圖結構中節點之間的距離減小而呈指數遞減。這種設計使模型能夠在保留遠距離信息捕獲能力的同時,更專注於本地信息。
  2. 可學習約束: Gradformer爲衰減掩碼引入了一種可學習的約束,使不同的注意力頭可以學習到不同的掩碼。這使得注意力頭多樣化,提高了模型對圖中多樣結構信息的吸收能力。
  3. 歸納偏差的整合: Gradformer的設計將歸納偏差整合到自注意力機制中,增強了它對圖結構化數據的建模能力。與之前僅使用位置編碼或注意力偏差的方法相比,這種整合更有效。
  4. 與現有方法的比較: Gradformer在各種數據集上與14種基線模型進行了比較,包括圖神經網絡(GNN)和圖Transformer模型。實驗結果表明,Gradformer在圖分類和迴歸等任務中,始終優於這些模型。
  5. 處理深層架構: Gradformer在深層架構中同樣有效,隨着網絡深度的增加,其準確度得以保持甚至增強,這與其他轉換器顯著下降的準確度形成鮮明對比。

Gradformer通過引入帶有可學習約束的指數衰減掩碼,爲圖Transformer提供了一種新的方法,有效地捕捉了圖結構中的本地和全局信息。這種設計將其與之前的模型區分開來,並提高了其在各種任務中的表現。

https://avoid.overfit.cn/post/ce4d852480a347ffb41c1eabf8cba71f

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章