圖神經網絡將成AI下一拐點!MIT斯坦福一文綜述GNN到底有多強

深度學習在圖像分類,機器翻譯等領域都展示了其強大的能力,但是在因果推理方面,深度學習依然是短板,圖神經網絡在因果推理方面有巨大的潛力,有望成爲AI的下一個拐點。DeepMind 公司最近開源了其GraphNet算法庫,各大巨頭公司也紛紛投入大量資源研究圖神經網絡,本文是AI前線第68篇論文導讀,下面我們來深入瞭解圖神經網絡背後的原理和其強大的表徵能力。

摘要

圖神經網絡(GNNs)廣泛應用於圖的表徵學習,其遵循鄰域聚合框架,通過遞歸聚合和轉換相鄰節點的特徵向量來計算節點的表徵向量。已經提出了許多GNN的變體,並在節點和圖形分類任務上取得比較好的結果。然而,儘管GNN使圖形表徵學習發生了革命性的變化,但是,對其表示屬性和侷限性的理解還很有限。

在這裏,本論文提出了一個在分析GNN捕獲不同圖結構表現力的理論框架。本論文的描述了各種流行的GNN變體的判別能力,如Graph Convolutional Networks(圖卷積神經網絡)和GraphSAGE,並表明他們無法學會區分某些簡單的圖結構。然後,本論文開發了一個簡單的體系結構,可以證明其在GNNs類中是最具表現力的,並且它和Weisfeiler-Lehman(圖同構測試)方法一樣強大。在許多圖分類基準測試上,通過經驗驗證了該理論發現,並證明本論文的模型達到了最佳的性能。

介紹

學習圖結構數據,例如:分子、社會、生物和金融網絡等,需要有效的表徵圖的結構。最近,研究者們對使用Graph Neural Network(GNN)方法來對圖進行表徵學習產生了極大的興趣。GNN大部分都遵循循環遞歸鄰域聚合(或者消息傳遞)的模式,其中每個節點聚合其相鄰節點的特徵向量以計算其新的特徵向量。在k輪聚合迭代後,通過其轉換的特徵向量來表示該節點,該向量捕獲節點的k-hop網絡鄰節點的結構信息。然後,可以通過pooling來獲得整個圖結構的表徵,例如對圖中所有節點的表徵向量求和。許多基於不同neighborhod aggregation的GNN變體和graph-level的pooling scheme已經被許多學者提出。

根據經驗,這些GNNs已經在許多任務中達到最佳的性能,如節點分類,鏈接預測和圖分類。然而,新GNN的設計主要是基於經驗直覺,啓發式和實驗試錯。對於GNN的性質和侷限性,目前理論層面的解釋還比較少。GNN的表徵能力的正式分析還是有限的。

本論文提出了一個分析GNN表徵能力的理論框架。從形式上描述了不同GNN變體在學習表徵和區分各種圖結構方面的表現力。該框架是受GNNs和WL測試(Weisfeiler-Lehman 圖同構測試)緊密聯繫的啓發,WL測試是以其強大的區分各種圖結構能力而聞名。與GNNs相似,WL測試通過聚合給定節點的鄰近節點的特徵向量迭代更新其特徵向量。WL測試的強大之處是其注入聚合(injective aggregation)更新,它映射不同節點的鄰近節點到不同的特徵向量。主要觀點是,如果GNN的聚合模式具有高度的表現力和能夠爲注入函數建模的話,它就同WL測試一樣具有強大的區分能力。

爲了數學形式化上述觀點,首先抽象出一個節點的鄰近節點的特徵向量作爲多重集,該集合中可能有重複元素。然後,在GNNS中的領域聚合(neighbor aggregation)可以抽象爲多集上的函數。我們嚴格學習不同多集函數的變體,並從理論上描述其識別能力,即不同的聚合函數可以區分不同的多重集。越具有區分力的多重集函數,GNN的潛在表徵能力就越強。

本論文的主要結果總結如下:

1)我們發現在區分圖結構方面,GNN跟WL測試能力一樣強大。

2)我們發現在建立領域聚合(neighbor aggregation)和圖池函數(graph pooling)的情況下,得到的GNN和WL測試一樣強大。

3)我們識別無法通過流行的GNN變體區分的圖結構,例如GCN(Kipf&Welling,2017)和GraphSAGE(Hamilton等,2017a),並且我們對基於GNN模型可以捕獲的各種圖結構進行了精確的描述。

4)我們開發了一個簡單的神經網絡架構,圖同構網絡(Graph Isomorphism Network)GIN,並證明其判別/表徵能力等同於WL測試。

在圖分類數據集上,通過實驗驗證我們的理論,其中GNN的表達能力對於捕獲圖結構至關重要。特別是,我們對基於各種聚合函數的GNN性能進行了對比。我們的結果證實了最強大的GNN(我們的圖同構網絡GIN)具有很強的表徵能力,可以近乎完美的擬合訓練數據,然而較弱的GNN變體有嚴重的欠擬合問題。此外,在許多圖分類的基準測試集上,它的表徵能力和性能優於其他的GNNs。

預備知識

首先,我們總結一些常見的GNN模型,順便介紹一下相關數學符號的含義。假設G = (V, E)表示一個圖,圖的節點向量用X(v)表示,其中,v ∈ V 。有兩個比較感興趣的任務:(1)節點分類,其中每個節點v ∈ V都有一個相關的標籤 y(v),目標是學習節點v的表徵向量h(v),節點v的標籤可以被函數y(v)=f(h(v))所預測。(2)圖分類,其中給定一組圖{G1, …, GN }⊆ G及其標籤{y1, …, yN } ⊆ Y,我們的目標是學習一個表徵向量h(G),它有助於預測整個圖的標籤y(G) = g(h(G))。

圖神經網絡

GNNs利用圖結構和節點特徵X(v)來學習一個節點的表徵向量h(v),或者整個圖的表徵向量h(G)。

新式的GNNs都遵循領域聚合(neighborhood aggregation)策略,其中我們通過聚合它的鄰近節點的表徵向量來迭代更新節點的表徵向量。在k次迭代後,節點的表徵可以在它的k-hop網絡鄰居中捕獲結構信息。形式上,GNN的第k層是:

image

其中,h{k}(v)是節點v在第k的迭代/層的特徵向量。我們初始化h{0}(v)=X(v),N(v)是與v節點鄰近的一組節點。在GNNs中選擇函數AGGREGATE{k}(·) 和COMBINE{k}(·)非常關鍵。已經提出了許多用於聚合的體系結構。在GraphSAGE的pooling變體(Hamilton et al., 2017a),AGGREGATE函數形式如下:

image

其中,W是可以學習的矩陣,MAX表示一個element-wise的max-pooling。在GraphSAGE的COMBINE步是一個線性映射的連接W·[h{k-1}(v)|a{k}(v)]。在圖卷積網絡中(GCN)(Kipf & Welling, 2017),element-wise的mean pooling被替代,AGGREGATE 和COMBINE步集成在一體如下:

image

許多其他的GNNs可以類似的表示爲Eq. 2.1 (Xu et al., 2018; Gilmer et al., 2017)。

對於節點分類問題,最後一次迭代的節點表徵向量h{K}(v)用來做預測。對於圖分類問題,READOUT函數從最後一次迭代中聚合節點特徵來獲取整個圖的表徵向量h(G):

image

READOUT函數可以是一個簡單的置換不變函數,例如求和或者graph-level級別的pooling函數(Ying et al., 2018; Zhang et al., 2018)。

Weisfeiler-Lehman測試

圖同構問題指的是驗證兩個圖在拓撲結構上是否相同。這是一個具有挑戰性的問題:因爲現在很難知道計算的時間複雜度。WL(Weisfeiler-Lehman)測試是一種非常有效的一測試圖同構的方法,它可以區分各種圖。

在1維的情況下,它類似於在GNN中的領域聚合。假設每個節點都有一個分類標籤,WL測試(1)迭代聚合節點標籤和他們的鄰近節點,(2)將聚合的標籤hash成唯一的新標籤。如果在某些迭代中兩個圖的節點標籤不同,則該算法判定它們是不同的。

基於WL試驗,Shervashidze等人(2011)提出了WL子樹內核來測量圖之間的相似性。內核使用在WL測試不同迭代中的節點標籤計數作爲圖的特徵向量。直觀的來看,在WL測試的第k次迭代中,一個節點的標籤表徵該根節點的高度爲k的子樹結構(Figure 1)。因此,WL子樹所考慮的圖的特徵本質上是圖中不同根子樹的計數。

image

理論框架:概述

我們首先概述了分析GNNs表達能力的框架。GNN遞歸地更新每個節點的特徵向量,以捕獲其周圍其他節點的網絡結構和特徵,即其根子樹結構(圖 1)。在本文中,我們假設節點輸入特徵是一個宇宙內可數的數。對於有限圖,我們可以遞歸地證明在任何固定模型的深層節點特徵向量也是一個宇宙內可數的數。爲了簡化符號,我們可以爲每個特徵向量分配一個唯一的標籤∈{a,b,c。。}。 然後,一組相鄰節點的特徵向量形成多重集:同一元素可以出現多次,因爲不同的節點可以具有相同的特徵向量。

多重集定義:多重集是集合的一個廣義概念,它允許其元素有多個實例。更正式地講,多重集是一個二元組X =(S,m),其中S是由其不同元素組成的X的基礎集合,而m:S→N(≥1)給出了元素的多樣性。

爲了分析GNN的表達能力,我們分析了GNN何時將兩個節點映射到嵌入空間中的相同位置。直觀地說,最強大的GNN僅當兩個節點具有相同的子樹結構,並且在對應的節點上具有相同的特徵時,纔會將它們映射到相同的位置。由於子樹結構是通過節點鄰域遞歸定義的(圖1),因此當GNN將兩個鄰域映射到相同的嵌入時,我們可以遞歸地減少我們的分析。最強大的GNN永遠不會將兩個不同的鄰域(即,特徵向量的多重集)映射到相同的位置。這意味着它的聚合方案是單射的。 因此,我們將GNN的聚合方案抽象爲其神經網絡可以表示的多重集合上的一類函數,並分析它們是否能夠表示單射的多重集函數。

接下來,我們使用這種推理開發一個最強大的GNN。 在第5節中,我們研究了流行的GNN變體,並發現它們的聚合方案本質上不是單射的,因此功能較弱,但它們可以捕獲圖形的其他有趣屬性。

構建強大的圖神經網絡

理想情況下,GNN能夠(1)通過將它們映射到嵌入空間中的不同位置來區分不同的圖結構,以及(2)在嵌入空間中捕獲它們的結構相似性。在本文中,我們主要關注第一部分,我們將簡要討論第二部分。然而,將不同的圖映射到不同的嵌入空間的能力意味着可以解決圖同構問題。

在我們的分析中,通過一個稍微弱一點的標準來描述GNN的表達能力:魏斯費勒-雷曼(WL)圖同構測試,除少數特例外,該測試通常工作得很好,特別是規則圖(Cai等人,1992;Douglas,2011;Evdokimov&Ponomarenko,1999)。

引理2.設G1和G2爲任何非同構圖。如果一個圖神經網絡A: G → R(d) 遵循領域聚合方案,將G1和G2映射到不同的嵌入,Weisfeiler-Lehman圖同構檢驗也判定G1和G2不是同構的。

因此,在區分不同圖方面任何基於聚合的GNN都至多與WL測試一樣強大。一個自然的問題是,在原則上是否存與WL測試一樣強大的GNN? 我們在定理3中得到的答案是肯定的:如果鄰居聚合和圖池化函數是單射的,那麼得到的GNN就像WL測試一樣強大。

定理3.設A:G→R(d)是一個遵循鄰域聚合方案的GNN。 通過足夠的迭代,如果滿足以下條件,則A可以將通過Weisfeiler-Lehman測試的圖G1和G2爲非同構圖映射到不同的嵌入:

a)A 每次迭代聚合更新節點特徵向量

image

b)A的圖級別的readout函數,運行在節點特徵的多重集上{h(k)(v)},是一個單射函數。

在可數集上,單射性很好地描述了一個函數是否保留了輸入的區別性。在不可數集上,節點特徵是連續的,內射性和判別性的概念被“削弱”。在本文中,我們假設輸入節點特徵來自可數集。鑑於輸入節點特徵的可計數性假設,人們可能會問,GNN更深層的節點特徵的可數性是否仍然適用? 引理4表示是,即可數性可以跨層傳播。

**引理4.**假設輸入特徵空間X是可數的,g(k)是由GNN的第k層參數化的函數,k=1,…,L。其中,g(1)被定義在有限多重集X ⊂ X上,g(k)的範圍,節點的隱含特徵h{k}(v)空間,在k=1,…,L都是可數的。

在這裏,除了區分不同的圖之外,還值得討論GNN的一個重要好處,也就是說,捕捉圖結構的相似性。注意,WL測試中的節點特徵向量本質上是一種獨熱編碼(one-hot編碼),因此不能捕獲子樹之間的相似性。相反,滿足定理3標準的GNN,通過學習將子樹嵌入低維空間來推廣WL測試。這使得GNN不僅可以區分不同的結構,而且可以學習將相似的圖結構映射到相似的嵌入,並捕獲圖結構之間的依賴關係。捕捉節點標籤的結構相似性對泛化有幫助,特別是在不同的圖中當子樹的共現稀疏或存在噪聲邊和節點特徵時(Yanardag和Vishwanathan,2015)。

圖異構網絡(GIN)

接下來,我們開發了一個可證明滿足定理3中條件的模型,從而推廣了WL測試。 我們將結果體系結構命名爲Graph Isomorphism Network(GIN)。爲了模擬領域聚合的單射多重集函數,我們發展了一個“深多重集”的理論,即用神經網絡參數化通用多重集函數。我們的下一個引理表明,求和聚合器可以代表多重集合的單射,事實上,是多重集上的通用函數。

**引理5.**定義如下:

image

該引理擴展了設置(Zaheer et al., 2017)從集合到多重集。深多重集和集合之間的一個重要區別是某些單射集合函數,例如均值聚合器,不是多重集函數。利用引理5中通用多重集函數的建模機制作爲構建塊,現在我們提出一種聚合方案,可以表示節點對和其鄰居的多重集合上的通用函數,從而滿足定理3a中的單射性條件。 我們的下一個推論在許多這樣的聚合方案中提供了簡單而具體的公式。

**推論6. **定義如下:

image

由於通用逼近定理(Hornik等,1989; Hornik,1991),我們可以使用多層感知器(MLP)來推導和學習推論6中的f和φ,在實際應用中,我們用一個MLP對f(k+1) ◦ φ (k)進行建模,因爲MLP可以表示函數的組成。在第一個迭代中,如果輸入特徵是一個熱編碼,那麼在求和之前不需要MLP,因爲它們的求和是單射的。我們可以製作一個可學習的參數或固定的標量。然後,GIN更新節點表徵如下:

image

通常,可能存在許多其他強大的GNNs。 雖然GIN很簡單,但是它是最強大的GNN中的一個。

讀取不同部分的子樹結構

圖級讀出(readout)的一個重要方面是,隨着迭代次數的增加,對應於子樹結構的節點表徵變得更加精細和全局。足夠數量的迭代是實現良好區分力的關鍵。 然而,特徵的早期迭代
有時可能更好地泛化。爲了考慮所有的結構信息,GIN從模型的所有深度/迭代使用信息。 我們通過類似於跳躍知識網絡(JK-Nets)(Xu等人,2018)的架構來實現這一點,其中在所有的迭代中我們使用連接後的圖的表徵向量替換了Eq.2.4:

image

根據定理3和推論6,如果GIN使用對來自相同迭代的所有節點特徵求和來取代Eq.4.2中的READOUT(在求和之前我們不需要額外的MLP,原因與方程4.1相同),它可以推廣WL測試和WL子樹核。

能力不強但仍然有趣的其他GNNs

接下來我們研究不滿足定理3中條件的GNN,包括GCN(Kipf&Welling,2017)和GraphSAGE(Hamilton等,2017a)。

我們對 Eq. 4.1中聚合器的兩個方面進行消融研究:(1)使用1層的感知器代替MLP;(2)利用平均或最大池而不是求和。

令人驚訝的是我們觀察到這些GNN變體被簡單的圖所迷惑,並且沒有WL測試強大。 儘管如此,使用平均聚合器的模型像GCN在節點分類任務中還是表現良好。 爲了更好地理解這一點,我們精確地描述了不同GNN變體能夠和不能夠捕獲圖的哪些內容,並討論學習圖的含義。

1-層的感知機並不充分

引理5中的函數f有助於將不同的多重集合映射到唯一的嵌入。它可以通過MLP通過通用逼近定理參數化(Hornik,1991)。儘管如此,許多現有的GNN使用1-層感知器σ°W代替(Duvenaud等人,2015; Kipf&Welling,2017; Zhang等人,2018),線性映射後跟非線性激活函數,如 ReLU。 這種1-層映射是廣義線性模型的例子(Nelder&Wedderburn,1972)。因此,我們對了解1-層感知器是否足以進行圖學習非常感興趣。引理7表明確實存在網絡鄰域(多重集合),具有1-層感知器的模型永遠無法區分。

**引理7.**定義如下:

image

引理7證明的主要思想是1層感知器的行爲很像線性映射,因此GNN層退化爲簡單地對鄰域特徵求和。我們的證據建立在線性映射中缺少偏差項的事實上。利用偏差項和足夠大的輸出維數,1-層感知器可能能夠區分不同的多重集。 儘管如此,與使用MLP的模型不同,1-層感知器(即使具有偏置項)也不是多重集函數的通用逼近器。

因此,即使具有1-層感知器的GNN在某種程度上可以將不同的圖嵌入到不同的位置,這種嵌入也可能不能充分地捕獲結構相似性,並且對於簡單的分類器(例如,線性分類器)來說可能難以擬合。 在第7節中,我們將憑經驗看到具有1-層感知器的GNN,當應用於圖分類時,有時會嚴重欠擬合,並且在測試精度方面通常表現不及MLP的GNN。

混淆平均值和最大池的結構

如果我們將h(X)=sum(f(x)) ,其中x∈X,中的求和替換爲GCN和GraphSAGE中的均值或最大池,會發生什麼?平均和最大池聚合器仍然是定義良好的多重集函數,因爲它們是置換不變的。但是,它們不是單射的。

image

image

圖2根據三個聚合器的表示能力對其進行排序,圖3說明了平均池和最大池聚合器對結構對無法區分。在這裏,節點顏色表示不同的節點特徵,我們假設GNN在將它們與中心節點組合之前先聚合鄰居。

在圖3a中,每個節點具有相同的特徵a,並且 f(a)在所有節點上是相同的(對於任何函數f)。當執行鄰域聚合時,f(a)上的均值或最大值仍爲f(a),並且通過歸納,我們總是在任何地方獲得相同的節點表示。因此,均值和最大池聚合器無法捕獲任何結構信息。相反,求和聚合器可以區分結構,因爲2·f(a)和3·f(a)給出了不同的值。相同的參數可以應用於任何未標記的圖。如果節點度不是常量值,則可以用作節點輸入特徵,原則上,均值可以覆蓋求,但最大池不能。

圖3a表明均值和最大值難以區分具有重複特徵的節點的圖。假設h(color)(r代表紅色,g代表綠色)表示由f轉換後的節點特徵。圖3b顯示藍色節點附近的最大值產生max(h(g),h®)和max(h(g),h®,h®),這兩個值摺疊成相同的表示。因此,最大池無法區分它們。相比之下,求和聚合器仍然有效,因爲1/2*(h(g)+h®)和1/3*(h(g)+h®+h®)通常是不等同的。同樣地,在圖3c中,平均值和最大值均爲失敗1/2*(h(g)+h®)和1/4*(h(g)+h(g)+h®+h®)。

平均學習分佈

爲了描述平均聚合器可以區分多重集的類,考慮示例X1 = (S, m) and X2 = (S, k · m),其中X1和X2具有相同的一組不同元素的集合,但X2包含X1的每個元素的k個副本。任何平均聚合器都將X1和X2映射到相同的嵌入,因爲它只需要對單個元素的特徵取平均值。因此,平均值可以捕獲多重集中元素的分佈(或者比例),而不是精確的多重集。

**推論8.**定義如下:

image

對於任務而言,如果圖中的統計和分佈信息比精確的結構更爲重要,則平均聚合器可能表現良好。此外,當節點特徵多樣且很少重複時,平均聚合器與求和聚合器一樣強大。這就可以解釋爲什麼,儘管存在第5.2節中提到的一些限制,但帶有平均聚合器的GNN對於節點分類任務還是有效,例如對文章主題進行分類和社區檢測,其中節點特徵豐富,並且鄰域特徵的分佈爲任務提供了一個強有力的信號。

具有不同元素的最大池學習集

圖3中的示例說明最大池認爲具有相同的特徵的多個節點僅爲一個節點(即,將多重集合視爲一個集合)。 最大池不捕獲確切的結構和分佈。 但是,它可能適用於某些識別任務,這些任務中識別元素或“骨架”更重要,而不是區分確切的結構或分佈。( 齊等人.2017)憑經驗表明,最大池聚合器學習識別3D點雲的骨架,並且它對噪聲和異常值具有魯棒性。 爲了完整起見,下一個推論顯示最大池聚合器捕獲多重集的基礎集。

**推論9.**定義如下

image

實驗設置

我們評估和比較GIN和不太強大的GNN變體的訓練和測試性能。

數據集

我們使用9個圖分類基準:4個生物信息學數據集(MUTAG,PTC,NCI1,PROTEINS)和5個社交網絡數據集(COLLAB,IMDB-BINARY,IMDB-MULTI,REDDIT-BINARY和REDDIT-MULTI5K)(Yanardag&Vishwanathan,2015)。

在生物信息圖中,節點具有分類輸入特徵; 在社交網絡中,它們沒有任何特徵。 對於REDDIT數據集,我們將所有節點特徵向量設置爲相同(因此,這裏的特徵是無信息的); 對於其他社交圖,我們使用節點度的獨熱編碼。

模型和配置

我們評估GIN(方程4.1和4.2)和不太強大的GNN變體。在GIN框架下,我們考慮兩種變體:1)通過梯度下降,學習方程式4.1中的ε的GIN,我們稱之爲GIN-ε;(2)更簡單(稍微不那麼強大)的GIN,其中ε在方程式中 4.1固定爲0,我們稱之爲GIN-0。

正如我們將要看到的,GIN-0顯示出強大的經驗性能:GIN-0不僅與GIN-ε一樣擬合的訓練數據好,它還表現出良好的泛化性,在測試精度方面略微但始終優於GIN-ε。對於能力較弱的GNN變體,我們考慮使用mean或max-pooling替換GIN-0聚合中的求和的架構,或者用1-層感知器替換MLP,即線性映射後面接ReLU。在圖4和表1中,模型由它使用的聚合器/感知器命名。我們對GIN和所有GNN變體應用相同的圖級readout(公式4.2中的READOUT),特別是生物信息學數據集的求和readout以及由於更好的測試性能而在社交數據集上的平均readout。

以下(Yanardag&Vishwanathan,2015; Niepert等,2016),我們使用LIB-SVM進行10倍交叉驗證(Chang&Lin,2011)。我們公佈了通過cv進行的10-交叉驗證validate集的準確度的平均值和標準差。對於所有的配置,應用5個GNN層(包括輸入層),並且所有MLP具有2個層。BN標準化(Ioffe&Szegedy,2015)應用於每個隱藏層。我們使用Adam優化器(Kingma&Ba,2015),初始學習率爲0.01,並且每50個epochs將學習率衰減0.5。我們針對每個數據集調優的超參數是:(1)生物信息圖的hidden units的大小∈{16,32}和社交圖的大小爲64; (2)批量大小(batch size)∈{32,128}; (3)在dense層後,dropout 率∈{0,0.5}(Srivastava等,2014); (4)epochs的數量。

基準線

我們將上面的GNN與一些性能最佳的圖分類基線進行了比較:

(1)WL子樹內核(Shervashidze等,2011),其中使用了C-SVM(Chang&Lin,2011) 作爲分類器。 我們調優的超參數是SVM中的C和WL迭代的數量∈{1,2,…,6};

(2)性能最佳的深度學習架構擴散 - 卷積神經網絡(DCNN)(Atwood&Towsley,2016)、PATCHY-SAN(Niepert等,2016)和Deep Graph CNN(DGCNN)(Zhang et al.,2018);

(3)Anonymous Walk Embeddings(AWL)(Ivanov&Burnaev,2018)。

對於深度學習方法和AWL,我們報告了原始論文中報告的準確性。

image

image

實驗結果

訓練集性能

通過比較它們的訓練精度,我們驗證了GNNs的強大表徵能力的理論分析。圖4顯示了具有相同超參數設置的GIN和不太強大的GNN變種的訓練曲線。

首先,理論上最強大的GNN,即GIN-ε (Sum–MLP),和GIN-0 能夠完美擬合所有的訓練數據。在我們的實驗中,與在GIN-0中把ε固定爲0相比,在擬合訓練數據時,用 GIN-ε顯式學習ε沒有任何收益。相比之下,在許多數據集中,使用平均/最大池或1-層感知機的GNN變體嚴重欠擬合。特別是,訓練精度模式與我們通過模型的表徵能力進行的排名一致:具有MLP的GNN變體比具有1-層感知器的GNN變體具有更高的訓練精度,具有求和聚合器的GNN比具有平均和最大池聚合器的GNN更好的擬合訓練集。

然而,在我們的數據集上,GNN的訓練精度從未超過WL子樹內核的精度,後者具有與WL測試相同的區分能力。例如,在IMDBBINARY上,沒有一個模型能夠完全擬合訓練集,而且GNN最多能達到與wl內核相同的訓練精度。此模式與我們的結果一致,即WL測試爲基於聚合的GNN的表示能力提供了一個上限。我們的理論結果集中在表徵能力上,還沒有考慮到優化(例如局部極小)。儘管如此,實驗結果與我們的理論非常吻合。

測試集性能

接下來,我們比較測試集精度。雖然我們的理論結果並不能直接說明GNN的泛化能力,但有理由期待具有較強表達力的GNN能夠準確地捕獲感興趣的圖結構,因此泛化能力非常好。表1比較了GINs(SUM-MLP)、其他GNN變種以及最佳基準線的測試精度。

結論

在本文中,我們建立了GNN表達能力推理的理論基礎,並對流行的GNN變體的表達能力進行了嚴格的論證。在此過程中,我們還在鄰域聚合框架下設計了一個可以證明是最強大的GNN。未來工作的一個有趣方向是超越鄰域聚合(或消息傳遞)框架,以追求更強大的圖學習架構。理解和改進GNN的泛化性質也是很有意思的。

論文原文鏈接:

https://arxiv.org/pdf/1810.00826.pdf

更多內容,請關注AI前線

image

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章