我們真的需要深度圖神經網絡嗎?

雲棲號資訊:【點擊查看更多行業資訊
在這裏您可以找到不同行業的第一手的上雲資訊,還在等什麼,快來!

5f20ed1eb3c5e_png

今年,圖深度學習成爲機器學習領域 炙手可熱的話題之一。然而,那些習慣於想象卷積神經網絡具有數十層甚至數百層的人,如果看到大多數關於圖深度學習的工作最多隻用了幾層的話,他們會不會感到深深的失望呢?“深度圖神經網絡”一詞是否被誤用了?我們是否應該套用經典的說法,思考深度是否應該被認爲對圖的學習 是有害的?

訓練深度圖神經網絡是一個難點。除了在深度神經結構中觀察到的標準問題(如反向傳播中的梯度消失和由於大量參數導致的過擬合)之外,還有一些圖特有的問題。其中之一是過度平滑,即應用多個圖卷積層後,節點特徵趨向於同一向量,變得幾乎無法區分的現象【1】。這種現象最早是在 GCN 模型【2】【3】中觀察到的,其作用類似於低通濾波器【4】。

最近,人們致力於解決圖神經網絡中的深度問題,以期獲得更好的性能,或許還能避免在提到只有兩層的圖神經網絡時使用“深度學習”這一術語的尷尬。典型的方法可以分爲兩大類。首先,使用正則化技術,例如邊 dropout(DropEdge)【5】、節點特徵之間的成對距離歸一化(PairNorm)【6】,或節點均值和方差歸一化(NodeNorm)【7】。其次,架構變化,包括各種類型的殘差連接(residual connection),如跳躍知識【8】或仿射殘差連接【9】。雖然這些技術允許訓練具有幾十層的深度圖神經網絡(否則很難,甚至不可能),但它們未能顯示出顯著的收益。更糟糕的是,使用深度架構常常會導致性能下降。下表摘自【7】,顯示了一個典型的實驗評估,比較了不同深度的圖神經網絡在節點分類任務上的表現:

5f20ed1dc26cf_png

該圖顯示了深度圖神經網絡結構在 CoauthorsCS 引文網絡上的節點分類任務中的典型結果。隨着深度的增加,基線(具有殘差連接的 GCN)表現不佳,性能從 88.18% 急劇下降到 39.71%。使用 NodeNorm 技術的架構隨着深度的增加表現一直良好。然而,當深度增加時,性能下降(雖然不明顯,從 89.53% 下降到 87.40%)。總的來說,通過 64 層的深度架構獲得的最佳結果(87.40%),遜於簡單基線(88.18%)。另外,還可以觀察到 NodeNorm 正則化提高了淺 2 層架構的性能(從 88.18% 提高到 89.53%)。上表摘自【7】(所示爲每個類 5 個標籤的情況;該論文中研究的其他設置也表現出了類似的行爲)。類似的結果在【5】和其他幾篇論文中也有顯示。

從這張表中可以看出,要將深度架構帶來的優勢與訓練這樣一個神經網絡所需的“技巧”區分開來很困難。實際上,上例中的 NodeNorm 還改進了只有兩層的淺層架構,從而達到了最佳性能。因此,在其他條件不變的情況下,更深層次的圖神經網絡是否會表現得更好,目前尚不清楚。

這些結果顯然與傳統的網格結構化數據的深度學習形成了鮮明的對比,在網格結構化數據上,“超深度”(ultra-deep)架構【10】【11】帶來了性能上的突破,並在今天得到了廣泛的使用。在下文中,我將嘗試提供一些指導,以期有助回答本文標題提出的“挑釁性”問題。需要注意的是,我本人目前還沒有明確的答案。

圖的結構 。由於網格是一種特殊的圖,因此,肯定有一些圖的例子,在這些圖上,深度是有幫助的。除網格外,表示分子、點雲【12】或網片【9】等結構的“幾何”圖似乎也受益於深度架構。爲什麼這樣的圖與通常用於評估圖神經網絡的引用網絡(如 Cora、PubMed 或 CoauthsCS)有如此大的不同?其中一個區別是,後者類似於具有較小直徑的“小世界”網絡,在這種網絡中,人們可以在幾跳內從任何其他節點到達任何節點。因此,只有幾個卷積層的感受野(receptive field)已經覆蓋了整個圖【13】,因此,添加更多的層對到達遠端節點並沒有幫助。另一方面,在計算機視覺中,感受野呈多項式增長,需要許多層來產生一個能捕捉圖像中對象的上下文的感受野【14】。

5f20ed1df279f_png

在小世界圖(圖上)中,只需幾跳即可從另一個節點到達任意一個節點。結果,鄰居的數量(以及相應的,圖卷積濾波器的感受野)呈指數級快速增長。在這個例子中,從紅色節點到每個節點僅需兩跳即可(不同的顏色表示將到達相應節點的層,從紅色節點開始)。另一方面,在網格(圖下),感受野的增長是多項式的,因此,需要更多的層才能達到相同的感受野大小。

5f20ed1e8fb5a_png

在鄰居呈指數級增長的圖中(如上圖所示),會出現瓶頸現象:來自太多鄰居的太多信息必須壓縮到單個節點特徵向量中。結果,消息無法傳播,性能受到影響。

遠程問題域短程問題 。一個稍微不同但相關的區別是,問題需要遠程信息還是短程信息。例如,在社交網絡中,預測通常只依賴於來自某個節點本地鄰域的短程信息,而不會通過添加遠程信息來改善。因此,這類任務可以由淺層 GNN 來執行。另一方面,分子圖通常需要遠程信息,因爲分子的化學性質可能取決於其相對兩邊原子的組合【15】。要利用這些遠程交互,可能需要深度 GNN。但是,如果圖的結構導致感受野呈指數級增長,那麼瓶頸現象就會阻止遠程信息的有效傳播,這就解釋了爲什麼深度模型在性能上沒有提高【4】。

理論的侷限性 。除了一個更大的感受野外,深度架構在計算機視覺問題上提供的關鍵優勢之一是它們從簡單特徵組合複雜特徵的能力。將 CNN 從人臉圖像中學習到的特徵進行可視化後,會顯示出從簡單的幾何原語到整個面部結構逐漸變得更加複雜的特徵,這表明傳說中的“ 祖母神經元”更多是真實的,而不是神話。對於圖來說,這樣的組合似乎是不可能的,例如,無論神經網絡有多深,都無法從邊組成三角形【16】。另一方面,研究表明,如果沒有一定的最小深度,使用消息傳遞網絡計算某些圖的屬性(如圖矩)是不可能的【17】。總的來說,我們目前還不清楚哪些圖屬性可以用淺層 GNN 表示,哪些需要深度模型,以及哪些圖的屬性根本無法計算。

5f20ed1e6bc11_png

通過卷積神經網絡在人臉圖像上學習特徵的示例。請注意,當進入更深的圖層時,特徵是如何變得越來越複雜的(從簡單的幾何原語,到面部部分,再到整個人臉)。圖片改編自 Matthew Stewart 的一篇 博文。

深度與豐富度 。與底層網格固定的計算機視覺不同,在對圖的深度學習中,圖的結構確實很重要,並被考慮在內。設計出更爲複雜的消息傳遞機制來解決標準 GNN 無法發現的複雜的高階信息是有可能的,比如主題【18】或 子結構計數【19】。人們可以選擇具有更豐富的多跳濾波器的淺層網絡,而不是使用具有簡單一跳濾波器的淺層網絡。我們最近發表的關於可擴展的初始類圖神經網絡(SIGN)的論文,通過將單層線性圖卷積架構與多個預計算濾波器結合使用,將這一想法發揮到了極致。我們展示的性能可以與更復雜的模型相媲美,而它們的時間複雜度僅爲後者的一小部分【20】。有趣的是,計算機視覺走的是相反的道路:早期具有大(最大 11x11)濾波器的淺層 CNN 架構,如 AlexNet ,被具有小(通常爲 3x3)濾波器的非常深的架構所取代。

評估 。最後但並非不重要的是,圖神經網絡的主要評估方法受到了 Oleksandr Shchur 和 Stephan Günnemann【21】小組同事的嚴厲批評,他們提請人們注意常用基準的缺陷,並表明,如果在公平的環境下進行評估,簡單模型的表現可與更復雜的模型相媲美。我們觀察到的一些深度架構的現象,例如,性能隨深度而下降,可能僅僅是源於對小數據集的過擬合所致。新的 Open Graph Benchmark 解決了其中的一些問題,提供了非常大的圖,並進行了嚴格的訓練和測試數據分割。我認爲,我們還需要進行一些精心設計的特定實驗,以便更好地理解深度在圖深度學習是否有用,以及何時有用。

【雲棲號在線課堂】每天都有產品技術專家分享!
課程地址:https://yqh.aliyun.com/zhibo

立即加入社羣,與專家面對面,及時瞭解課程最新動態!
【雲棲號在線課堂 社羣】https://c.tb.cn/F3.Z8gvnK

原文發佈時間:2020-07-29
本文作者:Michael Bronstein
本文來自:“InfoQ”,瞭解相關信息可以關注“InfoQ

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章