論文閱讀:Do Transformers Really Perform Bad for Graph Representation

該論文Do Transformers Really Perform Bad for Graph Representation探索了使用Transformer Encoder進行圖神經網絡的編碼時,一些可以用到的技巧,包括:

  1. 在節點本身的特徵基礎上,添加入度和出度特徵,論文稱之爲集中度編碼(Centrality Encoding)
  2. 爲了添加空間信息,計算每個節點和其他節點的attention score時,加入兩節點最短路徑長度信息(Spatial Encoding)
  3. 對於節點間連線包含了不同類型的情況,如分子間的化學鍵,加入對邊類型的編碼,兩節點間最短路徑上所有邊的類型編碼,點乘權重矩陣,求均值作爲兩節點間邊類型的特徵(Edge Encoding)

原始的Transformer Encoder公式:


節點表示加入出度和入度:


將節點間最短距離作爲bias項加入:


將節點間邊的編碼也作爲bias項加入:


同時實現過程中適用pre-norm替換transformer encoder默認的post-norm,這也是業界通用的方式:


爲了獲得一個整個圖的表示,加入了一個虛擬加點VNode,該節點和圖裏面所有節點都相連,這種方式類似Sentense Embedding中的CLS節點。

同時,論文還測試了把Edge的信息求平均後直接累加到節點特徵裏的效果,如下表,結果顯示不如放在attention bias中效果好。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章