論文淺嘗 | ICLR2020 - 基於組合的多關係圖卷積網絡

論文筆記整理:吳銳,東南大學計算機學院碩士。


 

     

來源:ICLR 2020

鏈接:https://arxiv.org/pdf/1911.03082.pdf

 

動機

 

目前針對於GCN的研究大多數都關注在學習無向圖的結點表示上,然而我們在研究中更常見的通常是多關係圖,例如知識圖譜。因此,目前的大多數方法都無法直接應用在link prediction這一類需要對關係進行embedding表示的任務上。

KG-embedding的相關研究表明可以對邊和結點的表示進行聯合學習,但這些方法通常都受限於以link prediction爲目標來學習embedding。雖然GCN能夠以特定任務爲目標進行學習,但其大多數應用都被限制在無關係圖上。因此,本文考慮使用KG-embedding技術來學習特定任務下的關係和結點的embedding表示,COMPGCN應運而生。COMPGCN通過聯合學習多關係圖中的關係與結點的向量表示來解決了傳統GCN所遇到的困難。主要貢獻有以下幾點:

  1. 提出COMPGCN,能夠在GCN中對多種關係信息進行組合;

  2. 證明了CompGCN可以推廣出已有的多關係GCN,並且可以隨着關係數量的增長而不斷擴展;

  3. 通過實驗證明了方法的有效性。

 

背景知識

 

作者首先對一些背景知識進行了敘述,主要爲針對無向圖的GCN以及其對於有向圖的擴展。無向圖的表示如下:

             

其中V表示頂點集合,E表示邊的集合,X則表示每個結點的輸入特徵。傳統的單層的GCN可以得到如下的結點表示:

             

其中W表示模型的參數,f表示激活函數,可以認爲H對圖中每個結點的直接鄰居進行了編碼。如果要獲得多跳的信息,可以用多層的GCN,如下:

             

其中k表示層數,則 W^k 表示特定層的參數。

對於有向圖來說,GCN的表示如下式所示:

             

其中 W_r^k 表示針對於特定關係的參數。顯然,關係越多就會導致參數越多。當關系的種類非常多時,就會引入非常多的參數,不利於模型進行學習。

 

CompGCN

 

首先,對於多關係圖(其實就是有向圖)的表示如下:

             

其中Z表示初始的關係特徵,R表示可能的關係集合。

然後對邊進行擴展。簡單來說,就是對所有邊添加一條反向邊,併爲每個結點添加一條指向自己的邊:

             

在前面所提到的GCN的表達式,可以寫成如下的形式:

             

其中N(v)表示結點v的出邊相連的結點集合。CompGCN首先對相鄰接點以及對應的邊進行組合操作,以此來保證特徵的維度是線性的,具體的更新公式如下:

             

其中x_ux_r 分別指代初始的結點和關係的特徵,h_v 指代結點v更新後的表示,W_lamba(r)則是特定的關係類型的參數。在CompGCN中,作者用關係的方向的來進行區分:

             

             

此外,爲了統一邊與結點之間的運算,作者用一個投影矩陣將邊空間投影到節點空間:

             

爲了避免隨着關係數量的增加所帶來的參數複雜性,CompGCN使用了一組基來作爲可學習的基礎向量,而不是爲每一個關係都定義一個embedding,如下式所示:

             

其中,              表示可學習的基向量,a_br 則表示特定關係、特定基對應的可學習的權重。綜上所述,最終所得到的關於結點的k層之後的CompGCN的表達式如下:

             

關於關係的k層之後的CompGCN的表達式如下:

             

h_v^0和h_r^0表示初始的結點及關係特徵。

最後,作者還分析指出,目前的很多圖卷積神經網絡都可以認爲是CompGCN的一個特例,只不過是採取了不同的組合方式以及參數設置,如下表所示:

             

 

實驗

 

作者分別在鏈路預測、結點分類以及圖分類三個任務上進行了實驗,同時在所有任務上,以Relational-GCN、Directed-GCN以及Weighted-GCN作爲baseline進行對比。

1.針對鏈路預測任務,在FB15k-237以及WN18RR數據集上的實驗結果如下:

             

可以看到在多個指標上,CompGCN都取到了最好的效果。

 

2. 作者測試了在鏈路預測任務上,不同的組合編碼方式以及不同的評分函數所帶來的不同效果,主要有以下三種組合方式:

             

其次,embedding的評分函數以及CompGCN的組合編碼方式之間的關係如下圖所示,可以幫助理解實驗的過程:

             

 其中M代表組合編碼方式,X表示評分函數,最終實驗結果如下:

             

可以看到,在不同的評分函數下,CompGCN都取得了最好的效果。且ConvE+CompGCN(Corr)在所有實驗中取得了最好的效果。

 

3. 作者通過調整關係數量以及基向量個數的方式,分析了CompGCN的scalability。主要分爲以下幾個方面:

a) 改變基向量個數帶來的影響

             

可以看到模型的效果隨着基向量的個數而不斷提升,當取到100個基向量的時候,模型的效果與爲每一種關係單獨建立一個embedding的效果幾乎一樣。在前面的實驗中我們可以看到,當取50的時候,CompGCN就能夠有不錯的表現了,

 

b) 改變關係數量帶來的影響

             

可以看到,不管有多少個關係,CompGCN都能夠取得不錯的表現。

c) 與R-GCN的對比

             

 

可以看到,即使只用5個基向量,CompGCN的效果也在各種數量關係上全面優於考慮所有關係的R-GCN。

4. 針對結點分類(左)以及圖分類(右)任務,實驗結果如下圖所示:

             

可以看到,在大部分情況下,CompGCN都取得了非常好的效果。


 

OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 博客。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章