如何設計局部的、計算效率高的、可證明的圖神經網絡?

在本文中,作者將討論如何設計局部的、計算效率高的、可證明的圖神經網絡,這種網絡不是基於 Weisfeiler-Lehman 測試層次結構。本文是圖神經網絡表達能力系列文章的第二部分。

前文回顧

《圖深度學習:成果、挑戰與未來》
《圖神經網絡的表達能力與 Weisfeiler-Lehman 測試》

本文最初發表在 TowardsDataScience 博客,經原作者 Michael Bronstein 授權,InfoQ 中文站翻譯並分享。

最近的開創性論文【1】【2】建立了圖神經網絡和圖同構測試之間的聯繫,並觀察了消息傳遞機制與 Weisfeiler-Lehman(WL)測試之間的相似性【3】。Weisfeiler-Lehman 測試是圖論多項式時間迭代算法的層次結構的總稱,用於確定圖的同構性。k-WL 測試在每一步根據鄰域聚集規則對圖的頂點的 k 元組進行重新着色,並在着色達到穩定後停止。如果兩個圖的顏色直方圖不同,則認爲這兩個圖不是同構的;否則,這兩個圖(但不一定)是同構的。

消息傳遞神經網絡最多隻能和 1-WL 測試(也稱爲節點顏色細化)一樣強大,因此,即使是非常簡單的不同構圖實例也無法區分。例如,消息傳遞神經網絡不能計算三角形【4】,這是已知在社交網絡中扮演重要角色的模式,它與表示用戶“緊密結合”程度的聚類係數有關【5】。設計出表達力更強的圖神經網絡來複制越來越強大的 k-WL 測試是可以實現的【2】【6】。然而,這樣的架構會導致很高的複雜性,並帶來大量的參數,但最重要的是,通常需要非局部操作,這使得它們不切實際。

image

因此,基於 Weisfeiler-Lehman 層次結構的可證明功能強大的圖神經網絡,要麼功能不強但實用,要麼功能強大但不切實際【7】。我們在與 Giorgos Bouritsas 和 Fabrizio Frasca【8】的合作的一篇新論文中提出,我認爲有一種不同的簡單方法可以設計出高效且可證明功能強大的圖神經網絡。

圖子結構網絡(Graph Substructure Networks)。這個想法實際上非常簡單,在概念上類似於位置編碼或圖元描述符(graphlet descriptors)【9】:我們使消息傳遞機制瞭解局部圖結構,允許根據端點節點之間的拓撲關係以不同方式計算消息。這是通過向消息傳遞函數傳遞與每個節點【10】相關聯的附加結構描述符來實現的,這些描述符是通過子圖同構計數構造的。通過這種方式,我們可以將圖中的節點劃分成不同的等價類,這些等價類反映了每個圖中的節點之間以及不同圖之間共享的拓撲特徵。

我們將這種架構成爲圖子結構網絡(Graph Substructure Network,GSN)。它具有與標準消息傳遞神經網絡相同的算法設計、存儲和計算複雜度,並增加了構造結構描述符的預計算步驟。計數子結構的選擇對於 GSN 的表達能力和預計算步驟的計算複雜度都是至關重要的。

在具有 n 個節點的圖中,對大小爲 k 的子結構進行計數的最壞情況複雜度爲 𝒪(nᵏ)。因此,它類似於高階圖神經網絡模型或 Morris【2】和 Maron【6】。然而,與這些方法相比,GSN 有幾個優點。首先,對於某些類型的子結構,例如道路和環,計數的複雜度可以大大降低。其次,計算成本高的步驟作爲預處理只做一次,因此不影響保持線性的網絡訓練和推理,這與消息傳遞神經網絡中的方式相同。訓練和推理的記憶複雜度也是線性的。第三,也是最重要的一點,GSN 的表達能力不同於 k-WL 測試,在某些情況下更強。

GSN 有多強大? 與標準的消息傳遞網絡相比,子結構計數賦予了 GSN 更強的表達能力。首先,必須澄清的是,GSN 的表達能力取決於所使用的圖子結構。正如我們有一個 k-WL 測試的層次結構一樣,我們可能會有基於對一個或多個結構的技術來獲得不同的 GSN 變體。使用比星圖更復雜的結構,GSN 可以嚴格地比 1-WL(或等效的 2-WL)更強大,因此也比標準消息傳遞架構更強大。對於 4-clique,GSN 的能力至少不低於 3-WL,如下面的強正則圖示例所示,其中,GSN 成功,而 3-WL 失敗:

image

具有 16 個頂點和 6 個節點度的非同構強正則圖的示例,其中,每兩個相鄰頂點有兩個相鄰的鄰居,並且每兩個不相鄰的頂點也有兩個相鄰的鄰居。在本例中,3-WL 測試失敗,而 4-clique 結構的 GSN 可以區分它們。在左側圖(稱爲 Rook 圖)中,每個節點恰好參與一個 4-clique。右側圖(Shrikhande 圖)具有大小爲3的最大團(三角形)。圖源【8】。

更一般地說,對於 𝒪(1) 大小的各種子結構,只要它們不能被 3-WL 計數,就存在 GSN 成功切 3-WL 失敗的圖【11】。雖然我們找不到相反的例子,但原則上他們可能是存在的:這就是爲什麼我們關於 GSN 的力量的說法是弱形式的,“至少力量不弱”。

這也適用於較大的 k;上圖中強正則圖的一般化,稱爲 k-等正則圖,是 (k+1)-WL 測試失敗的實例【12】。這些示例也可以通過具有適當結構的 GSN 來區分。因此,GSN 的表達能力可以通過下圖來體現:

image

原則上來說,GNS 能有多強大?這仍然是一個懸而未決的問題。圖重構猜想【13】假設了從所有節點刪除的子結構中恢復圖的可能性。因此,如果重構猜想是正確的,那麼具有大小爲 n-1 的子結構的 GSN 將能夠正確地測試任何圖的同構。n-1 將能夠正確的測試任何圖的同構。然而,重構猜想目前只能證明大小爲 n≤11 的圖,其次,如此大的結構是不切實際的。

更有趣的問題是,對於“小”結構(𝒪(1) 大小與節點數 n 無關)是否存在類似的結果。我們的經驗結果表明,具有小子結構(如道路)的 GSN 對強正則圖有效,而強正則圖是 Weisfeiler-Lehman 測試的一個難題。

最重要的是,GSN 構建在標準消息傳遞架構之上,因此繼承了其局部性和線性複雜性。該方法的超參數包括爲構造結構描述符而計數的結構。實際應用很可能會以所需的表達力、能保證表達力的結構大小和計算的複雜性之間的權衡爲指導。

image

在我們的實驗中,我們觀察到不同的問題和數據集受益於不同的子結構,因此,這種選擇很可能是特定於問題的。幸運的是,我們經常知道那些子結構在某些應用程序中很重要。例如,在社交網絡中,三角形和高階的團很常見,並且有一個明確的“社會學”解釋。在化學中,環是一種非常常見的模式,例如,在大量有機分子中出現的五元芳環和六元芳環。下圖顯示了一個我們大多數人都熟悉的例子:咖啡因分子,它在我們血液中的含量低得驚人。現在聽起來是寫完這篇文章,給自己沏一杯咖啡的好時機。

image

參考文獻

【1】 《圖神經網絡有多強大?》(How powerful are graph neural networks?),K. Xu 等人,2019 年,Proc.ICLR。

【2】 《Weisfeiler 和 Leman Go 神經網絡:高階圖神經網絡》(Weisfeiler and Leman go neural: Higher-order graph neural networks),C. Morris 等人,2019 年,Proc. AAAI。

【3】 《圖的標準型化簡及其代數》(The reduction of a graph to canonical form and the algebra which appears therein),B. Weisfeiler、A. Lehman,1968 年,英譯本。

【4】 因此,兩個三角形數量不同的圖,將被 1-WL 測試認爲可能是同構的,或者等價於一個消息傳遞神經網絡所構造的相同嵌入。已經有實質性的新結果擴展了我們對什麼結構在 Weisfeiler-Lehman 測試下是不變的理解,例如,《關於 Weisfeiler-Lehman 不變性:子圖計數及相關圖性質》(On Weisfeiler-Leman invariance: subgraph counts and related graph properties),V. Arvind 等人,2018 年,arXiv:1811.04801。以及《圖神經網絡能對子結構進行計數嗎?》(Can graph neural networks count substructures?),Z. Chen 等人,2020 年,arXiv:2002.04025。

【5】圖子結構在複雜網絡中的應用已有十幾年的歷史。在生物信息學方面的開創性論文有:《網絡模式:複雜網絡的簡單構建構建塊》(Network motifs: simple building blocks of complex networks),R. Milo 等人,2002 年,Science 298 (5594):824–827。以及《交互式建模:無尺度還是幾何?》(Modeling Interactome: Scale-free or geometric?),N. Pržulj 等人,2004 年,Bioinformatics 20(18):3508–3515,該論文介紹了用於生物相互作用網絡分析的圖模式和圖元。在這叫網絡中,對三角形模式的研究至少可以追溯到《社交網絡中的局部結構》(Local structure in social networks),P. W. Holladn 和 S. Leinhardt,1976 年, Sociol. Methodol. 1–45。

【6】《可證明功能強大的圖神經網絡》(Provably powerful graph neural networks),H. Maron 等人,2019 年,Proc. NeurIPS。

【7】 Morris 的 3-WL 等價圖神經網絡結構具有 𝒪(n³) 空間複雜度和 𝒪(n⁴) 時間複雜度。Maron 的架構具有稍微好一些的 𝒪(n²) 空間複雜度和 𝒪(n³) 時間複雜度。對於一個只有 1M 節點的中等大小的圖來說,這仍然可以轉化爲巨大的 1TB 內存和百萬萬億次計算。

【8】 《利用子圖同構計數提高圖神經網絡的表達能力》(Improving graph neural network expressivity via subgraph isomorphism counting),G. Bouritsas 等人,2020 年,arXiv:2006.09252。

【9】 基於子結構計數的圖分析方法顯然遭遇最近關於圖深度學習的研究工作。值得注意的例子包括 T. Milenkoviæ 和 N. Pržulj 於 2008 年在 Cancer Inform. 6:257–273 發表的論文《利用圖元度簽名揭示生物網絡功能》(Uncovering biological network function via graphlet degree signatures)中提出的生物信息學中的圖元簽名。或圖元核(graphlet kernels),《用於大型圖比較的高效圖元核》(Efficient graphlet kernels for large graph comparison),N. Shervashidze 等人,2009 年,Proc. AISTATS。

【10】 我們也展示了用於邊的相同機制,爲簡潔起見,我省略了這些。

【11】 3-WL 的子結構計數方面似乎相當薄弱。例如,它可以計算多大 7 個節點的模式環,但不能計算有道的 4 個環或長度爲 4 的道路。目前尚不清楚通過在 WL 層次結構中向上可獲得什麼樣的子結構計數能力。

【12】 《Weisfeiler-Lehman 方法和圖同構測試》(The Weisfeiler-Lehman method and graph isomorphism testing),B. L. Douglas,2011 年,arXiv:1101.5211。請注意,在不同的參考文獻所稱的“k-WL”之間存有一定程度的混淆。Douglas 使用 k-WL 這一術語來報時其他人所說的 (k-1)-FWL(“民間”WL)。在我們的術語中,k-WL 在(k-1)等正則圖上失敗。強正則圖是 2-等正則圖。

【13】 《樹的同餘定理》(A congruence theorem for trees),P. J. Kelly,1957 年, Pacific J. Math. 7:961–968。

【14】 《小圖是可重構的》(Small graphs are reconstructible),B. D. McKay,1997 年,Australasian J. Combinatorics 15:123–126。

作者介紹:

Michael Bronstein,倫敦帝國理工學院教授,Twitter 圖機器學習研究負責人,CETI 項目機器學習領導、Twitter 圖機器學習負責人、研究員、教師、企業家和投資者。

原文鏈接:

https://towardsdatascience.com/beyond-weisfeiler-lehman-using-substructures-for-provably-expressive-graph-neural-networks-d476ad665fa3

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章