【論文解讀 AAAI 2020 | HDGI】Heterogeneous Deep Graph Infomax

論文題目:Heterogeneous Deep Graph Infomax

論文來源:AAAI 2020

論文鏈接:https://arxiv.org/abs/1911.08538v1

代碼鏈接:https://github.com/YuxiangRen/Heterogeneous-Deep-Graph-Infomax

關鍵詞:異質圖,表示學習,GNN,互信息,attention



1 摘要

本文解決的是異質圖的表示學習問題。

受基於互信息的學習算法啓發,提出了無監督圖神經網絡****HDGI(Heterogeneous Deep Graph Infomax),用於異質圖的表示學習。

使用元路徑建模異質圖結構中的語義信息,使用圖卷積模塊語義級別的注意力機制捕獲節點的局部表示。

通過最大化局部和全局的互信息HDGI可以有效地學習到高階的節點表示

實驗顯示HDGI超越了state-of-the-art的無監督的圖表示學習方法,並且和有監督的用於節點分類的state-of-the-art的GNN模型相比,也表現強勁。


2 引言

有監督的GNN模型不能用於數據標籤難獲取的任務。

無監督的圖表示學習模型

無監督的圖表示學習模型大致可分爲兩類:

(1)基於矩陣分解的模型

通過分解簡單的相似度矩陣捕獲圖的全局信息,但是忽視了節點屬性信息以及局部鄰居間的關係信息

(2)基於邊的模型

通過節點間的連邊或隨機遊走得到的路徑,捕獲了局部和高階鄰居的信息。有連邊的節點或者是在同一路徑中共現的節點,其節點表示更加相似。

基於邊的模型傾向於保留有限範圍(有限階)的節點相似度,缺乏保留全局圖結構的機制

(3)DGI(deep graph infomax)

最近的DGI[1]提出了一個新方向,同時考慮了局部和全局的圖結構

DGI最大化了圖patch representations間的互信息以及對應的圖的high-level summaries。

甚至和同質圖的有監督的GNN模型相比,有可與之比擬的效果。


本文貢獻

本文作者提出基於互信息的用於異質圖表示學習的框架。

(1)第一個在異質圖表示學習中應用最大化互信息的工作;

(2)提出HDGI方法,是無監督的GNN模型。在元路徑上使用注意力機制來處理異質圖的異質性,使用互信息最大化實現無監督的設置。

(3)實驗證明HDGI學習得到的節點表示可用於節點分類和節點聚類任務。甚至比有監督信息的state-of-the-art GNN模型表現好。


3 定義

(1)異質圖(HG)

  • G=(V,E)\mathcal{G}=(\mathcal{V}, \mathcal{E})
  • 節點映射函數:ϕ:VT\phi: \mathcal{V}\rightarrow \mathcal{T}ϕ(v)T\phi(v)\in \mathcal{T}
  • 邊映射函數:ψ:ER\psi: \mathcal{E}\rightarrow \mathcal{R}ψ(e)T\psi(e)\in \mathcal{T}
  • T+E>2|\mathcal{T}|+|\mathcal{E}|>2
  • 節點的屬性特徵編碼成矩陣XX

(2)異質圖表示學習

給定G,X\mathcal{G}, X,學習到低維的節點表示:HRV×dH\in \mathbb{R}^{|\mathcal{V}|\times d}

本文作者只聚焦於學習一種類型的節點的表示,該類型的節點記爲Vt\mathcal{V}_t

元路徑表示兩節點間的複合關係,元路徑集合定義爲{Φ1,Φ2,...,ΦP}{\{\Phi_1, \Phi_2,..., \Phi_P\}}

本文爲了簡化問題的設置,使用對稱且無向的元路徑定義目標節點Vt\mathcal{V}_t間的相似性。

(3)基於元路徑的鄰接矩陣

給定元路徑Φi\Phi_i,若節點viVt,vjVtv_i\in \mathcal{V}_t, v_j\in \mathcal{V}_t間存在一個元路徑實例,則vi,vjv_i, v_j就是基於Φi\Phi_i的鄰居。

這樣的鄰居信息表示成基於元路徑的鄰接矩陣:AΦiRVt×VtA^{\Phi_i}\in \mathbb{R}^{|\mathcal{V}_t|\times |\mathcal{V}_t|}。若vi,vjv_i, v_j通過元路徑Φi\Phi_i相連,則AijΦi=AjiΦi=1A^{\Phi_i}_{ij}=A^{\Phi_i}_{ji}=1,否則爲0。


4 HDGI方法

4.1 HDGI概覽

HDGI的概覽如圖2所示。

在這裏插入圖片描述

輸入是:G,XRN×d,{Φi}i=1P\mathcal{G}, X\in \mathbb{R}^{N\times d}, {\{\Phi_i\}^P_{i=1}}

可計算出基於元路徑的鄰接矩陣集合{AΦi}i=1P{\{A^{\Phi_i}\}^P_{i=1}}

(1)4.2節展示了基於元路徑的局部表示編碼,由兩步組成:

  1. 根據XX和每個AΦiA^{\Phi_i}學習到節點表示HΦiH^{\Phi_i}
  2. 使用語義級別的注意力機制聚合{HΦi}i=1P{\{H^{\Phi_i}\}^P_{i=1}},生成節點表示HH

(2)4.3節展示了全局的表示編碼器R\mathcal{R},從HH獲得圖的summary vector s\vec{s}。最大化正樣本和graph-level summary s\vec{s}間的互信息,以訓練判別器D\mathcal{D}

(3)4.4節展示了基於互信息的判別器D\mathcal{D}以及負樣本生成器C\mathcal{C}


4.2 基於元路徑的局部表示編碼器

(1)針對特定元路徑的圖節點表示學習

使用node-level編碼器,編碼節點特徵XX和元路徑AΦiA^{\Phi_i}

在這裏插入圖片描述
考慮了兩種編碼器:

  1. GCN

在這裏插入圖片描述

其中AΦi^=AΦi+I\hat{A^{\Phi_i}}=A^{\Phi_i}+IDΦiD^{\Phi_i}AΦi^\hat{A^{\Phi_i}}的節點度對角矩陣。矩陣WΦiRd×FW^{\Phi_i}\in \mathbb{R}^{d\times F}是濾波器參數。

  1. GAT

對於第mm個節點,其K-head attention輸出可計算爲:

在這裏插入圖片描述
NmΦi\mathcal{N}^{\Phi_i}_m是節點mm基於Φi\Phi_i的鄰居節點集合,αmjΦi,k\alpha^{\Phi_i, k}_{mj}是第kk個歸一化後的注意力係數。

節點級別的學習之後,得到了一組節點表示{HΦi}m=1P{\{H^{\Phi_i}\}^P_{m=1}},接着將其聚合得到基於異質圖的節點表示。


(2)異質圖節點表示學習(聚合不同元路徑)

受HAN的啓發,使用語義注意力層LattL_{att},爲不同的元路徑學習到不同的權重:

在這裏插入圖片描述

不同元路徑的重要性計算如下:

在這裏插入圖片描述

在這裏插入圖片描述

使用注意力係數加權聚合:

在這裏插入圖片描述

注意:

HDGI和HAN在學習方式上是有區別的。HAN將分類交叉熵作爲損失函數,受訓練集中已標註的數據影響。然而,HDGI學習到的注意力權重由二元交叉熵損失指導,表示某一節點是否在原圖中


下一小節介紹全局表示的編碼器,它將HH作爲輸入,輸出grapg-level summary。


4.3 全局表示的編碼器

HDGI的學習目標是最大化局部表示和全局表示間的互信息。

HH中包含了節點的局部表示,需要計算出表示整個異質圖全局信息的summary vector s\vec{s}

考慮了三個編碼函數:

(1)Averaging encoder function

對節點表示取均值作爲graph-level summary s\vec{s}

在這裏插入圖片描述

(2)Pooling encoder function

將每個節點向量單獨輸入到一個全連接層。使用元素級的max-pooling操作(對應維度的所有元素取最大值),彙總出節點集的信息:

在這裏插入圖片描述
(3)Set2vec encoder function

使用基於LSTM的Set2vec,因爲原始的set2vec[2]是用於有序的節點序列的。而這裏是總結來自每個節點的信息,而不僅僅是圖的結構,從而得到圖的summary。

將節點的鄰居隨機排列(無序)作爲LSTM的輸入。


4.4 HDGI的學習

(1)基於互信息的判別器

Belghazi等人在論文[3]中證明了KL散度符合Donsker-Varadhan representation,並且f-divergence representation是其對偶表示。

這個對偶表示爲計算X,YX,Y的副信息提供了下界:

在這裏插入圖片描述

其中,PXY\mathbb{P}_{XY}是聯合分佈,PXPY\mathbb{P}_X \otimes \mathbb{P}_Y是邊緣分佈的乘積。TwT_w是基於參數爲ww的判別器的深度神經網絡。

使用PXY\mathbb{P}_{XY}PXPY\mathbb{P}_X \otimes \mathbb{P}_Y中的樣本可以估計出(10)式中的等號。

這裏,通過訓練判別器D\mathcal{D},同時估計和最大化互信息,從而辨別出正樣本集Pos={[hn,s]}n=1NPos={\{[\vec{h}_n, \vec{s}]}\}^N_{n=1}和負樣本集Neg={[hm,s]}m=1MNeg={\{[\vec{h}_m, \vec{s}]}\}^M_{m=1}

hi\vec{h}_i屬於原圖(聯合分佈)時,(hi,s)(\vec{h}_i, \vec{s})是正樣本;h^j\vec{\hat{h}}_j是生成的假節點(邊緣分佈的乘積)時,(h^j,s)(\vec{\hat{h}}_j, \vec{s})是負樣本。

判別器D\mathcal{D}是一個雙線性層

在這裏插入圖片描述

在本文的問題中,基於Jensen-Shannon散度和互信息間的進行的單調關係,就可以使用針對判別器D\mathcal{D}的二元交叉熵損失,最大化互信息

在這裏插入圖片描述

本質上判別器是用於最大化高階的全局表示和局部表示(節點級別)之間的互信息,這可以使編碼器學習到所有全局相關位置的信息。

(2)負樣本生成器

負樣本集{[hm,s]}m=1M{\{[\vec{h}_m, \vec{s}]}\}^M_{m=1}由不存在於異質圖中的節點組成。作者將[1]中的負樣本生成過程擴展到異質圖。負樣本生成器如下:

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-lr8eSqah-1585216050847)(C:/Users/byn/AppData/Roaming/Typora/typora-user-images/image-20200326170454299.png)]

負樣本生成器保持所有的基於元路徑的鄰接矩陣不變,保持G\mathcal{G}整體結構的穩定性。打亂節點特徵矩陣XX的行,圖的結構並沒有變,但是每個節點對應的初始的特徵向量變了,如圖3所示。

在這裏插入圖片描述

5 實驗

數據集:DBLP, ACM, IMDB

在這裏插入圖片描述

實驗任務:節點分類,節點聚類

對比方法:

(1)無監督方法

  • Raw Feature:初始特徵作爲嵌入表示
  • Metapath2vec
  • DeepWalk
  • DeepWalk+Raw
  • DGI[1]
  • HDGI-C:使用GCN捕獲局部特徵
  • HDGI-A:使用attention機制學習局部特徵

(2)有監督方法

  • GCN
  • RGCN
  • GAT
  • HAN

實驗結果:

(1)節點分類實驗結果

在這裏插入圖片描述

(2)節點聚類實驗結果

在這裏插入圖片描述

6 總結

本文提出一個無監督的GNN——HDGI,用於異質圖的節點表示學習

HDGI使用卷積形式的GNN語義級別的attention機制,捕獲節點的局部表示信息。

通過最大化local-global互信息,HDGI學習到了包含graph-level結構信息的high-level表示。並使用了元路徑建模異質圖中的語義關聯

HDGI在節點分類節點聚類任務上表現出了很好的效果,在節點分類任務上甚至比有監督的方法表現還好。

最大化互信息無監督表示學習有潛力的一個方向。


本文的亮點在於將最大化局部和全局的互信息引入到優化目標中,是DGI(Deep Graph Infomax)向異質圖的擴展。

流程大致分爲以下幾步:

(1)先針對特定的元路徑進行節點級別的編碼,這一過程使用GCN / GAT;

(2)然後使用語義級別的attention,聚合(1)得到的不同元路徑的信息(受HAN的啓發),這一步結束後得到局部信息;

(3)將(2)的輸出作爲輸入,編碼得到全局信息;

(4)HDGI的學習:基於互信息的判別器,負樣本的生成

文章的4.4部分是重點,講解了損失函數是怎麼得來的,我還不是很理解。

這裏有兩篇文章,一篇講解了DGI,一篇是對深度學習中的互信息的講解。再多找點資料理解理解吧。

DEEP GRAPH INFOMAX 閱讀筆記

深度學習中的互信息:無監督提取特徵


參考文獻

[1] Petar Velickovi´c, William Fedus, William L Hamilton, Pietro Lio, Yoshua Bengio, and R Devon Hjelm. Deep graph infomax. International Conference on Learning Representation, 2019.

[2] Manjunath Kudlur Oriol Vinyals, Samy Bengio. Order matters:
Sequence to sequence for sets. In International Conference on Learning Representation, 2016

[3] Mohamed Ishmael Belghazi, Aristide Baratin, Sai Rajeswar, Sherjil Ozair, Yoshua Bengio, Aaron Courville, and R Devon Hjelm. Mine: mutual information neural estimation. ICML, 2018

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章