pre-train+fine-tune的策略已經廣泛地應用在了CV, NLP領域,但如何有效地利用圖數據集的預訓練仍然是一個有待解決的問題。本文提出了一種在node-level和graph-level同時學習的預訓練模型,能夠很好地得到圖的局部和全局的表示。實驗證明預訓練模型在ROC-AUC上超過了非預訓練模型9.4%,並在分子性質預測和蛋白質功能預測方面達到了最好的表現。
本文被ICLR2020接收,Strategies for Pre-training Graph Neural Networks
INTRODUCTION
在圖上做預訓練的關鍵思想是利用易得的節點級別的信息讓模型能夠捕獲到domain-specific的節點和邊的knowledge,進而獲得圖級別的knowledge。
如果僅僅做節點級別的pre-train,雖然不同的節點能夠很好地被區分,但節點組合成的圖不能被很好地被區分;如果僅僅做圖級別的pre-train,雖然不同的圖能夠被很好地區分,但圖中節點的表示不能夠被區分。所以既需要節點級別的,也需要圖級別的,這樣無論是不同的節點的表示還是圖的表示都能夠在空間中很好地區分開來。
STRATEGIES FOR PRE-TRAINING GRAPH NEURAL NETWORKS
NODE-LEVEL PRE-TRAINING
CONTEXT PREDICTION: EXPLOITING DISTRIBUTION OF GRAPH STRUCTURE
這一部分的主要任務是讓模型具有通過中心節點預測其周圍結構的能力。
Neighborhood and context graphs:
一個層GNN網絡可以聚合節點階鄰居的信息,本文將節點的階鄰居內的邊和節點稱作是的K-hop neighborhood
,將節點 與跳之內的子圖稱作是的context graph
,將context graph
與K-hop neighborhood
重疊的部分稱作的context anchor nodes
。
Encoding context into a fixed vector using an auxiliary GNN:
在這裏使用輔助的context GNN編碼context graph
,然後使用得到的context anchor nodes
的embedding的均值作爲context graph
的embedding,記作。
Learning via negative sampling:
訓練目標是通過negative sampling 的方式得到負樣本。
ATTRIBUTE MASKING: EXPLOITING DISTRIBUTION OF GRAPH ATTRIBUTES
通過令網絡能夠預測被mask掉的節點/邊的方式,讓網絡能夠學習到圖的一些性質。具體來說,通過mask掉分子結構的部分原子,模型能夠學習到一些化學的規則,通過mask掉蛋白質交互網絡的部分邊,模型能夠學習到不同的交互如何關聯起來。
GRAPH-LEVEL PRE-TRAINING
SUPERVISED GRAPH-LEVEL PROPERTY PREDICTION
通過圖級別的表示來預測圖的一些標籤,例如預測化學物質的性質或蛋白質的功能,每一個標籤對應着一個二分類問題。
但是這樣的multi-task的圖級別的預訓練可能會帶來negative transfer的問題,一個解決辦法是隻讓模型去預測和下游任務相關的一些標籤, 但是這樣的做法需要手動去選擇哪些標籤是相關的。
One solution would be to select “truly-relevant” supervised pre-training tasks and pre-train GNNs only on those tasks.
爲了緩解這個問題,本文只使用多任務的有監督預訓練進行圖級別的學習,不使用在此過程中生成的節點嵌入。這些無用的節點表示可能會加重負遷移問題,因爲在節點的嵌入空間中,許多不同的預訓練任務容易互相干擾。
所以首先需要進行節點級別的pre-train,然後再做圖級別的pre-train,這樣產生了更加 transferable 的圖表示,並在沒有專家選擇監督的培訓前任務的情況下顯著提高了下游的性能。
STRUCTURAL SIMILARITY PREDICTION
future work!
EXPERIMENTS
待更新