論文筆記整理:楊帆,浙江大學計算機學院。
動機
現有的用於圖結構的預訓練方法要麼只關注node-level,導致在圖表示空間沒有區分度,要麼只關注graph-level,導致在節點表示空間沒有區分度。一種優質的節點表示應該保證不僅在節點層面有良好的區分度,而且由這些節點表示生成的圖的表示在全圖層面也有良好的區分度,所以預訓練過程應同時考慮到node-level和graph-level。
模型
本文提出的模型主要包括node-level預訓練和graph-level預訓練兩部分,其中node-level預訓練包括context prediction和attribute masking兩種實現方法。
Node-level pre-training
Context prediction
該方法定義了Neighborhood和Context graph兩個概念,利用兩個GNN分別對每個節點的Neighborhood和Context graph進行編碼,然後通過負採樣技術,訓練一個二分類器判斷一個Neighborhood表示和一個Context graph表示是否對應相同的節點,以此聚合周圍節點的屬性信息和鄰近的圖結構信息。
Attribute masking
該方法首先隨機選取某些節點的屬性將其MASK(把原始屬性用特殊的標識符替換掉),然後使用GNN對節點編碼生成節點表示,最後通過線性模型預測被MASK的屬性值。
2. Graph-level pre-training
首先將節點的表示聚合起來得到圖的表示,然後在圖上進行多個二分類任務的聯合訓練。
實驗
數據集
數據集包括生物和化學兩個領域,生物領域的任務是蛋白質功能預測,化學領域的任務是分子屬性預測。
實驗結果
ROC-AUC performance
Negative transfer
加入graph-level預訓練後,可以很好地防止Negative transfer(使用預訓練效果反而差於不使用預訓練的效果)的出現。
c. 收斂性
採用本文中的預訓練策略能夠有效加快收斂速度。
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。