一文帶你 GNN 從入門到起飛,做一個飯盆最穩 GNN 飯人!

摘要:本文介紹了圖神經網絡在學界和業界的發展情況,並給出了圖神經網絡的基本概念與表示形式,總結了圖神經網絡的變體,最後介紹了華爲雲圖神經網絡框架。

本文分享自華爲雲社區《乾飯人,乾飯魂,搞懂圖神經網絡穩飯盆》,原文作者:敏捷的小智。

乾飯人!2021年大廠都在用的圖神經網絡( GNN )還不懂嗎?一文帶你 GNN 從入門到起飛,做一個飯盆最穩 GNN 飯人!

圖神經網絡到底圖個啥?

搞懂圖神經網絡,首先你要先明白到底圖個啥啥是圖!圖這種結構普遍存在於人類社會生活中,如人與人之間的社交網絡會構成圖、地鐵線路及高鐵線路會構成圖、網民購買商品會構成“網民-商品”圖、互聯網中網頁間的互相鏈接會構成圖、論文的互相引用也會構成圖。根據這些圖的信息可以完成很多任務,例如根據用戶和商品的歷史交互,預測一個用戶是否會購買一個商品或對它感興趣;又如根據用戶間的好友關係或交流記錄,預測用戶和用戶之間是否構成好友關係。

既然圖無處不在,那我們怎麼去對圖做分析呢?目前,圖分析任務通常採用圖嵌入技術進行解決。通過圖嵌入技術,可以將圖中的結構及內容等信息用一個低維向量進行表徵,該向量可以作爲輸入用於下游的學習任務中。另外,圖嵌入還可以與深度學習技術相結合。例如,基於局部連接與平移不變的假設,可以將圖嵌入與卷積神經網絡(Convolutional Neural Network,CNN)相結合,從而得到圖神經網絡(Graph neural network,GNN)。

圖上的學習任務包括:

  1. 圖節點分類任務:圖中每個節點都有對應的特徵,當我們已知一部分節點的類別時,可以對未知類型的節點進行分類。
  2. 圖邊結構預測任務:圖中節點與節點之間的邊關係也存在多種類型,該任務是對節點和節點之間關係的預測。
  3. 圖的分類:該任務是對整個圖進行分類,基本思路是將圖中節點的特徵聚合起來作爲圖的特徵,再進行分類。

學界業界發展成啥樣了?

學界發展情況

近年來,圖神經網絡迎來了快速爆發期。在理論研究方面,相關工作對圖神經網絡的原理解釋、變體模型以及對各種圖數據的拓展適配等進行了研究。統計近一年各大頂級會議上的相關論文,可以發現圖神經網絡成爲最大的研究熱點。

圖 2.1 學界發展情況

業界發展情況

在應用實踐方面,圖神經網絡展現出前所未有的滲透性,從視覺推理到開放性的閱讀理解問題,從藥物分子的研發到5G芯片的設計,從交通流量預測到3D點雲數據學習,可以看到圖神經網絡極其廣闊的應用前景。

螞蟻金服利用圖神經網絡模型,挖掘設備共用圖中“正常用戶”和“騙保團伙”的關係模式,從而實現了對惡意賬戶的識別。圖中每個節點都有自己的特徵信息,通過這些特徵信息,可以挖掘某一用戶節點所關聯的設備節點信息,當某一個用戶關聯衆多設備時,可以認爲該用戶存在高危風險。同時,基於圖中的關聯關係,與該惡意用戶及關聯設備相互連接的節點也可能存在高危風險。

圖 2.2 螞蟻金服:高危賬戶識別

滴滴出行研究了一種基於時空多圖卷積神經網絡的網約車需求量預測模型。通過分析區域之間複雜的時空依賴關係,對網約車需求量進行準確預測,指導車輛的調度,提高車輛的利用率,減少等待時間,並在一定程度上緩解了交通的擁堵。

圖 2.3 滴滴出行:車輛調控管理

阿里媽媽利用圖神經網絡,從用戶行爲日誌、內容屬性等不同維度挖掘Query(查詢詞)、Item(商品)和Ad(廣告)的多種關係。對於在線請求場景,通過計算用戶查詢詞向量、前置行爲中節點向量和廣告節點向量之間的距離進行高效的向量化最近鄰檢索,從而快速匹配到符合用戶意圖的廣告並推薦給用戶。

圖 2.4 阿里媽媽:搜索廣告 匹配

網易音樂通過圖神經網絡,挖掘用戶的特徵、歌曲的特徵、用戶對歌曲的行爲特徵,實現精準的音樂推薦。圖中每個節點都具有結構信息,如果用戶頻繁訂閱某種類別音樂或對某種類別音樂評分較高,那麼系統就可以認定該用戶對該類音樂比較感興趣,就可以向該用戶推薦更多該類別的音樂。

圖 2.5 網易:音樂推薦

圖神經網絡

圖論基本概念

針對非歐幾里得結構化數據表示問題,研究者們引入了圖論中抽象意義上的圖(Graph)來表示非歐幾里得結構化數據。

圖(Graph)G 由頂點集合以及連邊集合構成,通常可以定義爲如下形式:

頂點集合( Vertex ) V 可以表示爲

邊集合( Edge )E 可以表示爲

圖的表示形式

常採用頂點的度矩陣、鄰接矩陣以及拉普拉斯矩陣等對圖進行刻畫。

頂點的度矩陣( Degree )D :與該頂點相關聯的邊的條數

鄰接矩陣( Adjacency matrix )A :圖結構的常用表示方法

拉普拉斯矩陣( Laplacian matrix )L :圖結構的一種表示方法

下圖給出了 連通圖及對應 的 度矩陣、鄰接矩陣 、 拉普拉斯矩陣 的示例 。

圖 3.1 圖論基本概念

圖神經網絡模型

圖嵌入模型

圖嵌入( Graph Embedding )是指,將圖中的節點、邊或子圖由低維連續向量進行表徵。爲了得到圖嵌入表徵,可以利用圖中的消息傳播機制。圖中的消息傳播機制包括兩個步驟:消息匯聚( aggregation/combine ),節點更新( update )。消息匯聚是指根據周圍鄰居節點特徵,節點更新是指學習中心節點的嵌入表示。圖中的消息傳播機制可以由下式進行表徵。

式中 , □表示可導且與輸入順序無關的函數,例如求和、均值或最大值函數等; γ 和 φ 表示可導函數,例如多層感知器 。

圖 3.2 圖嵌入模型

圖卷積神經網絡

在圖卷積神經網絡中,層與層之間的傳播方式爲:

下圖爲圖卷積神經網絡的示意圖,圖卷積神經網絡的輸入爲一張圖,通過若干層後節點特徵從 X 變爲 Z ,共享中間多個隱層中 A 參數。

圖 3.3 圖卷積神經網絡

構造一個兩層的圖卷積神經網絡,激活函數分別採用 ReLU 和 Softmax ,則整體的正向傳播的公式爲:

最後,根據特徵 Z ,可以做下游任務,如節點分類任務、圖分類任務、節點連接預測任務等。

圖注意力網絡

注意力機制可以理解成一個加權求和的過程:對於一個給定的 query ,有一系列的 value 和與之一一對應的 key ,那麼如何計算 query 的結果呢?很簡單,計算 query 與所有 key 的相似度,然後根據相似度對所有的 value 加權求和。這個相似度就是 attention coefficients ,計算公式如下:

式中, a 爲前饋神經網絡的權重係數, || 代表拼接操作。

圖 3.4 圖注意力網絡

利用注意力機制,可以對圖中各節點特徵進行更新:

利用多頭注意力機制,可以用 K 個權重係數分別對節點特徵進行更新:

圖 3.5 圖注意力網絡中的多頭機制

圖注意力網絡的優點包括:可以在不同的節點上進行並行計算、可以同時對擁有不同度的節點進行處理、可以對從未見過的圖結構進行處理並用於解決歸納學習問題。

異質圖注意力網絡

GCN直接在同質圖上操作,並根據其鄰域的屬性誘導融合得到當前節點的嵌入表示。在同質圖中,每層的傳播規則如下式所示

在異質網絡中,節點有多種類型T={τ1, τ2, τ3, …},GCN不能直接應用於異質網絡。爲了解決這個問題,可以採用異質圖卷積,考慮各種類型信息的異質性,並利用類型相關的變換矩陣將它們投射到公共的隱式空間中。

當給定某特定節點時,不同類型的相鄰節點可能對其具有不同的影響,例如,相同類型的相鄰節點可能會攜帶更有用的信息,而相同類型的不同相鄰節點也會具有不同的重要性。因此,可以設計一種異質網絡的雙層注意力機制。

圖神經網絡平臺

當前圖神經網絡平臺研發的難點在於缺少統一的算法框架,同時需要提升數據處理的效率。圖數據的遍歷及其與深度學習的交互會導致圖的運算效率大大降低,這也是圖深度學習一直無法落地的瓶頸之一。如果想要在性能上有所突破,就需要重新設計一個新的圖深度學習框架,以下介紹華爲雲圖神經網絡框架。

圖 4.1 圖注意力網絡中的多頭機制

(1)基於圖引擎的GNN新框架:在ModelArts中高效神經網絡訓練算子的基礎上,結合圖引擎服務(Graph Engine Service,簡稱GES)既有的高性能圖計算框架平臺能力,利用圖引擎高併發、低延時的特點,將GNN的訓練過程高度並行化,如將邊上的跳轉概率估計、頂點鄰域採樣、負樣本構建等,都化解爲每個頂點的局部操作;系統提供了動態調度器,讓這些局部操作可高度並行化執行,就能極大提升系統的總體吞吐量。

(2)多種GNN算法框架統一化:使用統一架構實現了非監督的大規模圖嵌入(例如DeepWalk、Node2Vec)和半監督的圖卷積(例如GCN、GraphSAGE)等多類GNN算法,降低了系統的維護成本。

(3)GNN與圖數據管理一體化:企業級GNN應用通常都不會是一次性計算,而且數據規模也很大,因此這些數據必須要被維護和管理起來。而現有的GNN通常不具備這種能力,用戶只能另建數據庫維護,計算的時候再把數據整體導出。不僅資源消耗大,也引入數據一致性等諸多問題。而GES採用屬性圖數據模型(Property Graph)和生態兼容的事實標準Gremlin圖查詢語言進行分佈式圖數據管理和維護,需要訓練的時候則在圖引擎內本地調用各類算子,併發執行,降低了端到端的性能損耗。

華爲雲圖神經網絡藉助ModelArts的高效神經網絡訓練優勢,以及GES的高性能圖計算優勢,大幅度提升了GNN的總體計算效率,以node2vec算法爲例,在PPI數據集上,華爲雲圖神經網絡從採樣到訓練可在2min內完成,較傳統開源實現提升20倍。

圖神經網絡有前途!

隨着圖神經網絡研究的熱度不斷上升,圖神經網絡的不同變種也不斷地湧現出來。此外,由於圖神經網絡對於非歐空間數據具有良好的表達能力,在電商、金融、交通、社會科學等有大量數據積澱的交叉領域有着廣闊的應用前景。本文介紹了圖神經網絡在學界和業界的發展情況,並給出了圖神經網絡的基本概念與表示形式,總結了圖神經網絡的變體,最後介紹了華爲雲圖神經網絡框架。希望本文能爲GNN道路上的你提供一些參考!

 

點擊關注,第一時間瞭解華爲雲新鮮技術~

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章