論文題目:Heterogeneous Deep Graph Infomax
論文來源:AAAI 2020
論文鏈接:https://arxiv.org/abs/1911.08538v1
代碼鏈接:https://github.com/YuxiangRen/Heterogeneous-Deep-Graph-Infomax
關鍵詞:異質圖,表示學習,GNN,互信息,attention
1 摘要
本文解決的是異質圖的表示學習問題。
受基於互信息的學習算法啓發,提出了無監督的圖神經網絡****HDGI(Heterogeneous Deep Graph Infomax),用於異質圖的表示學習。
使用元路徑建模異質圖結構中的語義信息,使用圖卷積模塊和語義級別的注意力機制捕獲節點的局部表示。
通過最大化局部和全局的互信息,HDGI可以有效地學習到高階的節點表示。
實驗顯示HDGI超越了state-of-the-art的無監督的圖表示學習方法,並且和有監督的用於節點分類的state-of-the-art的GNN模型相比,也表現強勁。
2 引言
有監督的GNN模型不能用於數據標籤難獲取的任務。
無監督的圖表示學習模型
無監督的圖表示學習模型大致可分爲兩類:
(1)基於矩陣分解的模型
通過分解簡單的相似度矩陣捕獲圖的全局信息,但是忽視了節點屬性信息以及局部鄰居間的關係信息。
(2)基於邊的模型
通過節點間的連邊或隨機遊走得到的路徑,捕獲了局部和高階鄰居的信息。有連邊的節點或者是在同一路徑中共現的節點,其節點表示更加相似。
基於邊的模型傾向於保留有限範圍(有限階)的節點相似度,缺乏保留全局圖結構的機制。
(3)DGI(deep graph infomax)
最近的DGI[1]提出了一個新方向,同時考慮了局部和全局的圖結構。
DGI最大化了圖patch representations間的互信息以及對應的圖的high-level summaries。
甚至和同質圖的有監督的GNN模型相比,有可與之比擬的效果。
本文貢獻
本文作者提出基於互信息的用於異質圖表示學習的框架。
(1)第一個在異質圖表示學習中應用最大化互信息的工作;
(2)提出HDGI方法,是無監督的GNN模型。在元路徑上使用注意力機制來處理異質圖的異質性,使用互信息最大化實現無監督的設置。
(3)實驗證明HDGI學習得到的節點表示可用於節點分類和節點聚類任務。甚至比有監督信息的state-of-the-art GNN模型表現好。
3 定義
(1)異質圖(HG)
- 圖
- 節點映射函數:,
- 邊映射函數:,
- 節點的屬性特徵編碼成矩陣
(2)異質圖表示學習
給定,學習到低維的節點表示:。
本文作者只聚焦於學習一種類型的節點的表示,該類型的節點記爲。
元路徑表示兩節點間的複合關係,元路徑集合定義爲。
本文爲了簡化問題的設置,使用對稱且無向的元路徑定義目標節點間的相似性。
(3)基於元路徑的鄰接矩陣
給定元路徑,若節點間存在一個元路徑實例,則就是基於的鄰居。
這樣的鄰居信息表示成基於元路徑的鄰接矩陣:。若通過元路徑相連,則,否則爲0。
4 HDGI方法
4.1 HDGI概覽
HDGI的概覽如圖2所示。
輸入是:。
可計算出基於元路徑的鄰接矩陣集合:。
(1)4.2節展示了基於元路徑的局部表示編碼,由兩步組成:
- 根據和每個學習到節點表示;
- 使用語義級別的注意力機制聚合,生成節點表示。
(2)4.3節展示了全局的表示編碼器,從獲得圖的summary vector 。最大化正樣本和graph-level summary 間的互信息,以訓練判別器。
(3)4.4節展示了基於互信息的判別器以及負樣本生成器。
4.2 基於元路徑的局部表示編碼器
(1)針對特定元路徑的圖節點表示學習
使用node-level編碼器,編碼節點特徵和元路徑:
考慮了兩種編碼器:
- GCN
其中,是的節點度對角矩陣。矩陣是濾波器參數。
- GAT
對於第個節點,其K-head attention輸出可計算爲:
是節點基於的鄰居節點集合,是第個歸一化後的注意力係數。
節點級別的學習之後,得到了一組節點表示,接着將其聚合得到基於異質圖的節點表示。
(2)異質圖節點表示學習(聚合不同元路徑)
受HAN的啓發,使用語義注意力層,爲不同的元路徑學習到不同的權重:
不同元路徑的重要性計算如下:
使用注意力係數加權聚合:
注意:
HDGI和HAN在學習方式上是有區別的。HAN將分類交叉熵作爲損失函數,受訓練集中已標註的數據影響。然而,HDGI學習到的注意力權重由二元交叉熵損失指導,表示某一節點是否在原圖中。
下一小節介紹全局表示的編碼器,它將作爲輸入,輸出grapg-level summary。
4.3 全局表示的編碼器
HDGI的學習目標是最大化局部表示和全局表示間的互信息。
中包含了節點的局部表示,需要計算出表示整個異質圖全局信息的summary vector 。
考慮了三個編碼函數:
(1)Averaging encoder function
對節點表示取均值作爲graph-level summary :
(2)Pooling encoder function
將每個節點向量單獨輸入到一個全連接層。使用元素級的max-pooling操作(對應維度的所有元素取最大值),彙總出節點集的信息:
(3)Set2vec encoder function
使用基於LSTM的Set2vec,因爲原始的set2vec[2]是用於有序的節點序列的。而這裏是總結來自每個節點的信息,而不僅僅是圖的結構,從而得到圖的summary。
將節點的鄰居隨機排列(無序)作爲LSTM的輸入。
4.4 HDGI的學習
(1)基於互信息的判別器
Belghazi等人在論文[3]中證明了KL散度符合Donsker-Varadhan representation,並且f-divergence representation是其對偶表示。
這個對偶表示爲計算的副信息提供了下界:
其中,是聯合分佈,是邊緣分佈的乘積。是基於參數爲的判別器的深度神經網絡。
使用和中的樣本可以估計出(10)式中的等號。
這裏,通過訓練判別器,同時估計和最大化互信息,從而辨別出正樣本集和負樣本集。
當屬於原圖(聯合分佈)時,是正樣本;是生成的假節點(邊緣分佈的乘積)時,是負樣本。
判別器是一個雙線性層:
在本文的問題中,基於Jensen-Shannon散度和互信息間的進行的單調關係,就可以使用針對判別器的二元交叉熵損失,最大化互信息:
本質上判別器是用於最大化高階的全局表示和局部表示(節點級別)之間的互信息,這可以使編碼器學習到所有全局相關位置的信息。
(2)負樣本生成器
負樣本集由不存在於異質圖中的節點組成。作者將[1]中的負樣本生成過程擴展到異質圖。負樣本生成器如下:
負樣本生成器保持所有的基於元路徑的鄰接矩陣不變,保持整體結構的穩定性。打亂節點特徵矩陣的行,圖的結構並沒有變,但是每個節點對應的初始的特徵向量變了,如圖3所示。
5 實驗
數據集:DBLP, ACM, IMDB
實驗任務:節點分類,節點聚類
對比方法:
(1)無監督方法
- Raw Feature:初始特徵作爲嵌入表示
- Metapath2vec
- DeepWalk
- DeepWalk+Raw
- DGI[1]
- HDGI-C:使用GCN捕獲局部特徵
- HDGI-A:使用attention機制學習局部特徵
(2)有監督方法
- GCN
- RGCN
- GAT
- HAN
實驗結果:
(1)節點分類實驗結果
(2)節點聚類實驗結果
6 總結
本文提出一個無監督的GNN——HDGI,用於異質圖的節點表示學習。
HDGI使用卷積形式的GNN和語義級別的attention機制,捕獲節點的局部表示信息。
通過最大化local-global互信息,HDGI學習到了包含graph-level結構信息的high-level表示。並使用了元路徑建模異質圖中的語義關聯。
HDGI在節點分類和節點聚類任務上表現出了很好的效果,在節點分類任務上甚至比有監督的方法表現還好。
最大化互信息是無監督表示學習很有潛力的一個方向。
本文的亮點在於將最大化局部和全局的互信息引入到優化目標中,是DGI(Deep Graph Infomax)向異質圖的擴展。
流程大致分爲以下幾步:
(1)先針對特定的元路徑進行節點級別的編碼,這一過程使用GCN / GAT;
(2)然後使用語義級別的attention,聚合(1)得到的不同元路徑的信息(受HAN的啓發),這一步結束後得到局部信息;
(3)將(2)的輸出作爲輸入,編碼得到全局信息;
(4)HDGI的學習:基於互信息的判別器,負樣本的生成
文章的4.4部分是重點,講解了損失函數是怎麼得來的,我還不是很理解。
這裏有兩篇文章,一篇講解了DGI,一篇是對深度學習中的互信息的講解。再多找點資料理解理解吧。
參考文獻
[1] Petar Velickovi´c, William Fedus, William L Hamilton, Pietro Lio, Yoshua Bengio, and R Devon Hjelm. Deep graph infomax. International Conference on Learning Representation, 2019.
[2] Manjunath Kudlur Oriol Vinyals, Samy Bengio. Order matters:
Sequence to sequence for sets. In International Conference on Learning Representation, 2016
[3] Mohamed Ishmael Belghazi, Aristide Baratin, Sai Rajeswar, Sherjil Ozair, Yoshua Bengio, Aaron Courville, and R Devon Hjelm. Mine: mutual information neural estimation. ICML, 2018