PNA | 使用多聚合器聚合圖信息結構

作者 | 李梓盟

審稿 | 陳雨潔

今天給大家介紹劍橋大學Pietro Liò團隊發表的一項研究工作“Principal Neighbourhood Aggregation for Graph Nets”。作者針對圖神經網絡(GNNs)的表達力展開研究,將GNN理論框架擴展至連續特徵,並從數學上證明了在這種情況下GNN模型對多種聚合函數的需求。基於上述工作,作者還提出主鄰域聚合(PNA)網絡,將多個聚合器與基於節點度的縮放器相結合, 並通過使用作者新提出的多任務基準以及“encode-process-decode”結構,證明了PNA網絡與其他模型相比獲得和利用圖結構的優越能力。

1

介紹

近年來GNN在圖表示學習方面取得很大進展,但由於缺乏評估GNN表達能力的標準基準和理論框架,新提出的GNN模型並沒有評估其網絡能否準確表示圖的結構特性,其模型的有效性很難得到驗證。最近關於各種GNN模型表達能力的研究主要集中在同構任務和可數特徵空間上,然而這些研究主要側重於區分不同的圖形拓撲能力上,而在瞭解它們能否捕獲並利用圖結構的基本特徵上所做的工作很少。

作者認爲當前GNN的聚合層其實並不能從單層的節點鄰域中提取足夠的信息,並在數學上證明了對多種聚合的需求。然後作者提出基於節點度的縮放器的概念,使其能夠允許GNN根據每個節點的度放大或衰減信號。結合上述內容,作者設計了主鄰域聚合(PNA,Principal Neighbourhood Aggregation)網絡,通過將多個聚合器和基於節點度的縮放器結合,使每個節點都能更好地理解其接收到的消息分佈,可以有效改善GNN的性能。

作者還針對GNN模型的表達能力的評估問題,創新性地提出使用包含節點級問題和圖級問題的多任務基準,這種多任務基準可以很好地適用於GNN,同時它可以確保GNN能夠同時理解多種特性。任務間有效地共享參數也表明了其對圖的結構特徵有更深入的理解。此外,作者也通過測試比訓練集更大的圖來探索網絡的泛化能力。

2

模型和方法

(1)多種聚合器(Aggregators)

聚合器(Aggregators)是可計算相鄰節點信息的多重集的連續函數。大多數GNN研究僅使用一種聚合方法,如mean,sum,max,但是對於單個GNN層和連續的輸入特徵空間,一些聚合器是無法區分鄰域消息的,研究還發現,多種聚合器之間存在互補關係,至少有一種聚合器始終可以區分不同的鄰域消息,圖1給出了聚合器無法區分鄰域消息相關示例。

圖1 聚合器無法區分鄰域消息相關示例

作者還提出經證明的相關定理來形式化其觀察結果:爲了區分大小爲n的多重集(其基礎集合爲R),至少需要n個聚合器。因此,作者提出使用四種聚合器:平均值、最大值、最小值以及標準差,對於節點度數很高的情況,前四種聚合器不足以準確地描述鄰域信息的情形,作者提出使用歸一化的矩聚合器提取高級分佈信息。

平均聚合μ考慮每個節點接受鄰居傳入消息的加權平均;最大max/最小min聚合主要選取當前節點鄰域信息的最大/最小值,該聚合方法更適用於離散任務;標準差聚合σ是通過量化相鄰節點特徵的分佈情況,以便節點能夠評估其接收到的信息的多樣性。

(2)基於節點度的縮放器(Degree-based scalers)

作者將縮放器作爲要聚合的消息數(通常是節點度)的函數,通過將其與聚合值相乘的方式來實現傳入消息的放大或衰減。作者將求和聚合器表示爲平均聚合器和線性節點度縮放器Samp(d)= d的組合。作者也提出了經證明的相關定理:在鄰域大小上與單射函數構成任意標度線性的平均聚集可以在可數元素的有界多集上生成單射函數。

由於節點度數的微小變化將導致信息和梯度以指數方式放大/衰減(每層的線性放大將導致多層後的指數放大),作者提出使用對數縮放器Samp來更好地描述給定節點的鄰域影響。

作者還對該縮放器進一步的推廣,其中α是一個可變參數,對於衰減設置爲負,對於放大設置爲正,對於無縮放設置爲零。

(3)主鄰域聚合(PNA)

作者將多種聚合器和基於節點度的縮放器結合,提出了主鄰域聚合(PNA)。PNA網絡總共執行12個操作:其中包括四個鄰域聚合器,針對每個鄰域聚合有三個基於節點度的縮放器,其中⊗是張量積。

在消息傳遞神經網絡內插入PNA算子,將當前節點的新的鄰居特徵信息與當前節點的初始節點特徵信息拼接,其中M和U是神經網絡,U將拼接的信息的維度13F減少到網絡中隱特徵的維度F。

3

網絡架構

作者使用如圖2所示的網絡架構在多任務基準進行實驗,其中包含M個GNN層,從第二層到第M-1層(即除第一層以外的所有層)的所有GNN層的權重共享,使得體系結構遵循encode-process-decode配置,這種配置能夠產生一個參數有效的網絡結構,並允許模型擁有可變的層數M。網絡中GRU(Gated Recurrent Units)用於每層的聚合函數更新功能之後,主要用於保留前幾層信息。最後針對節點級任務使用三個全連接層,圖級任務相較於節點級任務增加了set2set(S2S)讀出函數,確保生成與節點順序無關的圖級嵌入向量。

圖2 網絡架構

不同模型的差異在於用不同模型的圖卷積層來代替GC1和GCm使用的圖卷積層,而其他結構保持不變。

4

實驗

作者提出新的多任務基準,主要包括針對每個GNN模型預測多種節點級任務和圖級任務,其中節點級包括單源最短路徑長度、離心率以及拉普拉斯特徵,圖級任務包括連通性、直徑以及譜半徑。

作者針對不同GNN模型進行多任務基準測試,baseline模型包括GCN、GIN、GIN以及MPNN。圖3是使用相同的體系結構和各種接近最優的超參數,針對不同GNN模型的多任務基準測試結果。實驗結果表明,PNA模型始終優於最新模型,而且PNA模型在所有任務上都表現更好。Baseline的均方誤差(MSE)是通過預測所有任務訓練集的平均值得到的。實驗結果放大了針對各個任務進行訓練時各模型的平均性能之間的差異,結果表明PNA模型在所有模型中表現出最佳性能。

圖3 多任務基準測試結果

爲了證明PNA模型的性能提升不是因爲它的參數數量比其他模型多而引起的,作者將其他模型的潛在特徵尺寸從16增加到20並進行測試。表1爲使用16和20的特徵尺寸的不同模型的平均分數。實驗結果表明,即使參數較少,PNA的性能也始終較好,而且其他模型的性能並沒有因爲參數數量的增加而提高。

表1 使用16和20的特徵尺寸的不同模型的平均分數

作者還將模型擴展到更大的圖上,作者在節點數爲15-20的圖上進行訓練,在25-30大小的圖上進行驗證,在20-25大小的圖上進行評估,圖4爲不同GNN模型的MSE與基準MSE比較結果。實驗結果表明,模型的性能逐漸變差,但是PNA模型在所有圖尺寸上始終保持優於其他所有模型的性能,作者還發現在使用單個聚合器時,當擴展到較大的圖時,max聚合器往往表現最佳。而且PNA可以融合不同操作的優點,收斂至一個最佳的聚合器。

圖4 不同GNN模型的MSE與基線MSE比較結果

爲了測試PNA模型在現實領域中的能力,作者使用了化學中的ZINC和計算機視覺中的CIFAR10和MNIST數據集對PNA模型進行評估。圖5爲各種模型在三種數據集上的結果,作者提出三個數據集具有圖結構差異,在化學基準測試中,圖是多種多樣的,各個邊(鍵)可以顯着影響圖(分子)的特性,這與具有規則拓撲的圖(每個節點具有8條邊)組成的計算機視覺數據集形成對比。作者認爲PNA在化學數據集中之所以具有出色的性能,因爲它能夠了解圖結構並更好地保留社區信息。同時,沒有縮放器的PNA因爲無法在不同大小的鄰域之間進行區分,所以在化學數據集上表現較差,但在計算機視覺數據集中,由於圖結構的重要性較小,而沒有縮放器PNA版本的性能更好 。

圖5 各種模型在三種數據集上的結果

5

總結

作者將GNN的理論框架擴展到連續特徵上,並證明了在這種情況下對多個聚合器的需求,同時提出了基於節點度的縮放器來泛化求和聚集器。綜合考慮以上因素,作者提出主鄰域聚合(PNA)網絡,它由多個聚合器和基於節點度的縮放器組成。爲了理解GNN獲得和利用圖結構的能力,作者還提出了一種新穎的多任務基準和一種“encode-process-decode”結構。經過實驗證明,PNA模型在多任務基準測試中性能優於現有的GNN模型。

代碼

https://github.com/lukecavabarrett/pna

參考資料

https://arxiv.org/abs/2004.05718

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章