【轉載】圖神經網絡的新基準Benchmarking Graph Neural Networks

本文轉自知乎文章：圖神經網絡的新基準Benchmarking Graph Neural Networks

最近GNN備受關注，相信大家也都能感受到。但是，一旦我們開始閱讀相關論文，開展相關的實驗時，會發現一些問題。

我們一般會從節點分類數據集cora, citeseer, pubmed，圖分類PROTEINS， NCI1, NCI109等數據集入手，這些數據集相對都比較小，數據集小不是什麼問題，問題是我們採用已提出的模型進行訓練和測試時，發現這些模型並沒有太大的差別，換句話說有些模型是150分的水平，有模型是98分的水平，放在100分的卷子裏面，都是優秀的學生；再者我們用微積分雖然也能解決三角形面積問題，但是顯得過於複雜，那麼讓微積分解決曲面面積優勢就突出來了。除了數據集，我們再來看看實驗，在一些論文裏面，實驗的數據的分割方式也很獨特，訓練方式，超參數，損失函數，學習率的變化等與對比基準模型完全不同，但是作者們竟然直接比較了起來，審稿的同學一般也懶得再把之前的論文拿過來，仔細的對比一下，然後就通過。。。總結一下大概有兩點：數據集小，模型表現差異性小；實驗對比不規範。

今天介紹的這篇論文題目爲Benchmarking Graph Neural Networks ，在2020年3月2日由 Vijay Prakash Dwivedi，Chaitanya K. Joshi， Thomas Laurent，Yoshua Bengio， Xavier Bresson等人發佈在arxiv上。

下面先看看摘要

摘要

圖神經網絡（GNN）已成爲用於分析和學習圖數據的標準工具包。它們已成功應用於無數領域，包括化學，物理，社會科學，知識圖譜，推薦和神經科學。隨着領域的發展，識別跨圖大小通用的體系結構和關鍵機制變得至關重要，這使我們能夠處理更大，更復雜的數據集和領域。不幸的是，在缺乏統一的實驗設置和大型數據集的情況下，衡量新GNN的有效性和比較模型的難度越來越大。在本文中，我們提出了一個可復現的GNN基準框架，爲研究人員提供了添加新數據集和模型的便利。我們將此基準框架應用於數學建模，計算機視覺，化學和組合問題等新穎的中型圖形數據集，以在設計有效的GNN時建立關鍵操作。精確地，圖卷積，各向異性擴散，殘差連接和規範化層是用於開發健壯且可擴展的GNN的通用構件。

本文主要的貢獻：

用PyTorch和DGL在GitHub上發佈了一個基線框架，簡單容易上手，鏈接：https://github.com/graphdeeplearning/benchmarking-gnns
提出了一系列中等規模的數據集，包括數學建模，計算機視覺，組合優化，化學等領域；
確定了GNN關鍵部件的有效性，如異性擴散，殘差連接，正則化等；
論文沒有對已有的模型進行ranking，而是固定參數來確定GNN重要的機制；
好安裝，易上手，可復現。

數據集

首先，我們看看公佈的數據集，有以下6個數據集：

以上數據集分別是MNIST, CIFAR10，ZINC，PATTERN and CLUSTER ， TSP，進行的任務是依次分類（acc），迴歸（溶解度性能指標預測, MAE），節點分類（acc），邊分類（acc）

本文的主要動機是提出足夠大的數據集，以便在各種GNN架構之間觀察到差異。儘管小型數據集對於快速發展新想法很有用，但從長遠來看，它們會限制GNN模型的發展，因爲新的GNN模型會按照小型測試集進行設計，而不是尋找更通用的體系結構。另外，普遍採用的CORA和TU數據集的另一個問題是缺乏實驗結果的可重複性。大多數發表的論文沒有使用相同的trainvalidation-test拆分。此外，即使對於相同的分割，由於數據集太小，GNN的性能在常規的10倍交叉驗證中也表現出較大的標準偏差。本文提出的每個數據集都包含至少12 000個圖，規模中等。

本文進行實驗的模型有MLP, GCN, GAT, GaphSAGE, DiffPool, GIN, MoNet-Gaussian Mixture Model， GatedGCN等。驗證了殘差連接，Batch Normalization, Graph Size Normalization等模塊的作用。

實驗

作者首先用以上模型在之前的圖分類數據集上進行了實驗，紅藍黑加粗的顏色分別代表第一，第二，第三的表現。

可以看出來，上面的結果標準偏差相當大，因爲數據量小，按照交叉驗證的思路，不同的分割方式會導致實驗結果有很大的不同，這側面反應了所有GNN的統計性能相似。另外，作者還報告了這些實驗的第二次運行結果，採用相同的10倍拆分，但是不同的初始化方式，結果有較大的變化。這都可以歸因於數據集的尺寸小和梯度下降優化器的不確定。還可以觀察到，對於DD和Proteins數據集，MLP基線有時甚至比GNN還要好.

接着，作者在自己提出的數據集上一一進行了實驗

SuperPixel數據集的圖形分類

原始MNIST和CIFAR10圖像使用超像素轉換爲Graph，超像素代表圖像中強度均勻的小區域，可以使用SLIC技術提取，下面是提取的結果：

很多同學都很好奇，連接矩陣怎麼來？這個其實也簡單，主要你要想明白要定義的關係是怎麼樣的

文中採取的方式是採樣k個最鄰近的點，用上面的公式W來計算，可以看做是距離的度量，當然也可以有不同的定義方式，參考昨天的推送。其他的數據集參考論文細節，這裏就不再一一展開了...

下面是部分實驗結果

關於顏色Red: the best model, Violet: good models. Bold indicates the best model between residual and non-residual connections (both models are bold if they perform equally。

TSP數據集邊分類

近年來，利用機器學習來解決NP-hard組合優化問題（COP）一直是研究的重點。最近提出的基於COP的基於深度學習的求解器將GNN與經典圖搜索相結合，可直接從問題實例（表示爲圖）中預測近似解。考慮深入研究的旅行推銷員問題（TSP）：給定2D歐幾里得圖，就需要找到具有最小總邊沿權重（旅行長度）的最優節點序列（稱爲旅行）。TSP的多尺度性質使其成爲一項具有挑戰性的圖形任務，需要對本地節點鄰域以及全局圖形結構進行推理。爲了從搜索組件中分離出GNN架構的影響，作者將TSP設置爲二分類任務，with the groundtruth value for each edge belonging to the TSP tour given by Concord.

更多的實驗請參考論文細節

本文的想要告訴我們什麼？

與圖形無關的NN（MLP）在小型數據集上的表現與GNN相同
對於較大的數據集，GNN改進了與圖無關的NN
最簡單形式的GNN表現較差
各向同性GNN架構在原始GCN上有所改進。GraphSage證明了在圖卷積層中使用中心節點信息的重要性。GIN採用了中心節點特徵以及一個新的分類器層，該分類器層在所有中間層均與卷積特徵相連。DiffPool考慮了一種可學習的圖形池化操作，其中在每個分辨率級別使用GraphSage。除CLUSTER外，這三個各向同性的GNN可以顯着提高所有數據集的GCN性能。
各向異性的GNN是有效的。除了PATTERN以外，各向異性模型，例如GAT，MoNet和GatedGCN均能獲得最佳結果。另外，注意到，GatedGCN在所有數據集上的性能始終都很好。注：各向同性的GNN大多依賴於相鄰特徵的簡單總和，各向異性的GNN採用複雜的機制（GAT的稀疏關注機制，GatedGCN的邊緣門）。
殘差連接能夠提升模型的性能
正則化能夠提升模型的性能

結論

在本文中，作者提出了一個基準框架，以促進圖神經網絡的研究，並解決文獻中的實驗不一致問題。論文確認目前普遍使用的小型TU數據集不適合研究該領域模型，並在框架內引入六個中等規模的數據集。對圖形的多個任務進行的實驗表明：

i）隨着轉向更大的數據集，圖形結構非常重要；

ii）GCN是GNN的最簡單的各向同性版本，無法學習複雜的圖結構；

iii）自節點信息，層次結構，注意力機制，邊緣門和更好的讀出功能是改善GCN的關鍵結構；

iv）GNN可以使用殘差連接來更深地擴展，並且可以使用歸一化層來提高性能。

最後一點，基準測試基礎架構利用PyTorch和DGL，是完全可複製的，並向GitHub上的用戶開放，供大家嘗試新模型並添加數據集。

【轉載】圖神經網絡的新基準Benchmarking Graph Neural Networks

摘要

本文主要的貢獻：

數據集

實驗

SuperPixel數據集的圖形分類

TSP數據集邊分類

結論

關於遊戲付費的一點想法

我通過CKA和CKS啦！

fake news相關 2019-2020 五篇論文閱讀

【論文解讀 NIPS 2019 | GTNs】Graph Transformer Networks

【論文解讀 EMNLP 2018 | JMEE】Jointly Multiple EE via Attention-based Graph Information Aggregation

【論文解讀 arXiv 2020 | RA-GCN】Event Detection with Relation-Aware Graph Convolutional Networks

【轉載】關係抽取之遠程監督算法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結