南洋理工大學最新發布開源圖神經網絡基準

 

作者

 

介紹

 

最近的許多研究讓我們看到了圖形神經網絡模型(GNN)的強大潛力,許多研究團隊也在不斷改進和構建基礎模塊。但大多數研究所使用的數據集都很小,如Cora和TU,在這種情況下,即使是非圖神經網絡的性能也相當可觀。只有使用中等大小的數據集進行進一步比較,圖形神經網絡的優勢纔會變得明顯。

 

在斯坦福圖形神經網絡bull Jure等人發佈“開放圖形基準”之後,又一項旨在構建“圖形神經網絡圖像網”的研究應運而生。近日,來自南洋理工大學、洛約拉·馬裏蒙特大學、蒙特利爾大學、米蘭大學等機構的論文已提交到該平臺的預印本上,這項新的研究得到了深造先鋒Yoshua Bengio的參與,也得到了Yann LeCun的關注。

 

在該研究中,作者同時介紹了六個中型基準數據集(12k-70k圖,8-500節點),並測試了一些有代表性的圖神經網絡。除了只使用節點特徵的基線模型外,圖神經網絡還分爲兩類,有無邊對邊注意。GNN研究界一直在尋找一個共同的基準來評估新模型的能力,這個工具可以讓我們實現我們的目標。

 

方法

 

 

這項工作的目標之一是提供一個易於使用的中型數據集,在這個數據集上,過去幾年提出的不同GNN體系結構的性能有着顯著的不同。同時,從統計角度來看,這些差異相當顯著。基準包含6個數據集,如表1所示:

 

對於這兩個計算機視覺數據集,來自經典MNIST(LeCun et al.,1998)和CIFAR10(Krizhevsky et al.,2009)數據集的每個圖像都使用所謂的超級像素變換來映射。

 

下一個任務是對這些數字進行分類。在模式和集羣數據集中,圖形是基於隨機塊模型生成的。這些任務包括標識特定的子圖結構(模式數據集)或標識集羣(集羣數據集)。這些都屬於節點分類的任務。

 

Tsp數據集是基於銷售人員旅行的問題,假設有一個城市列表,訪問每個城市並返回原始城市的最短路徑是什麼?

 

將隨機歐氏圖上的TSP問題作爲邊界分類或連接預測任務。協和解算器給出的TSP旅行中每個邊界的真實值屬於現實世界中已經存在的分子數據集。每個分子都可以轉換成一個圖形:每個原子可以成爲一個節點,每個鍵可以成爲一個邊。

  • 基準測試設置

GatedGCN選通卷積網絡(Bresson&Laurent,2017)是最後一個正在考慮中的GNN。如果在數據集中可用,GatedGCN-e使用邊緣屬性/特徵表示版本。此外,作者還實現了一個不使用圖結構的簡單基線模型。它使用MLP作爲並行情況下每個節點的特徵向量,並且與其他節點無關。

 

這是後續的可選選通機制,用於獲取選通MLP基線(有關詳細信息,請參閱補充資料)。作者在Nvidia 1080Ti GPU上進行了MNIST、CIFAR10、zn和TSP的實驗,並在nvidia2080tigpu上進行了圖形和簇的實驗。

 

  • 圖形分類與超像素數據集

本節使用計算機視覺中最流行的MNIST和CIFAR10圖像分類數據集。超分辨率格式爲SLIC(Knyazev等人,2019)。MNIST有55000個訓練/5000個驗證/10000個測試圖,節點在40-75之間(即超級混合數)。CI-FAR10有45000個訓練/5000個驗證/10000個測試圖,節點數爲85-150。


表2:不同方法在基於MNIST和CI-FAR10的標準測試集上的測試結果(值越高越好)。結果是使用4種不同種子的4次運行結果的平均值。紅色是最好的等級,紫色是最高的等級。粗體表示剩餘鏈接和非剩餘鏈接之間的最佳模型(如果兩個模型處於同一級別,則均以粗體顯示)

 

  • SBM數據集上的節點分類

 

研究者考慮了節點級圖模式識別任務和半監督圖聚類任務。爲了在圖形模式識別過程中找到一個固定的圖形模式P,將其嵌入到一個較大的圖形G中。

 

半監督聚類任務是網絡科學中的另一個重要任務。研究人員爲上述兩項任務生成了相應的數據集。

 

 

 

  • 圖迴歸與分子數據集

 

ZINC分子數據集用於限制溶解度分子性質的迴歸分析。這裏ZINC有10000個訓練/1000個驗證/1000個測試圖,節點/原子數爲9-37。對於每個分子圖,節點特徵是原子類型,邊緣特徵是邊緣類型。

  • 邊緣分類是TSP數據級別

 

TSP(旅行商問題)是指旅行商問題:給定一個二維歐氏圖,該算法需要找到一個名爲Tour的最優序列節點。它應該有最小的側重。TSP的大規模特性使得它成爲一個具有挑戰性的圖任務,需要對局部節點的鄰域和全局圖結構進行推理。

 

更重要的是,組合優化問題也是GNN中一個具有研究意義的應用場景。研究這類問題不僅在現實中有着廣泛的應用,而且對於理解圖模型的優化和學習過程以及圖網絡的侷限性具有重要意義。

 

在基準測試中,研究人員採用了基於學習的方法,建立了一個GNN作爲骨架網絡,對每一條邊緣以及是否屬於預測結果集進行概率預測。該概率通過圖搜索技術轉化爲離散決策。研究人員分別創建了10000個訓練實例和1000個驗證和1000個測試實例。

結果

 

在具有和不具有BN(批量歸一化)和GN(圖形歸一化)的ZINC,CIFAR10和CLUSTER測試集圖上的性能。將4種種子的4次運行結果平均,顯示爲Acc±s.d。

ZINC越低越好,CIFAR10和CLUSTER越高越好。 

粗體表示在使用和不使用歸一化層之間的最佳模型(如果兩個模型表現均等,則兩個模型均爲粗體)。

 

 

論文地址:

https://arxiv.org/pdf/2003.00982.pdf

開源地址:

https://github.com/graphdeeplearning/benchmarking-gnns

 

更多論文地址源碼地址:關注“圖像算法”微信公衆號

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章