專訪DLP-KDD最佳論文作者,探討圖神經網絡的特點、發展與應用

InfoQ 的讀者大家好,我是 KDD Workshop DLP-KDD 2020 的聯合主席王喆,在 DLP-KDD 2020 徵稿之際,我們專訪了上一屆 Workshop Best Paper Award(An End-to-End Neighborhood-based Interaction Model for Knowledge-enhanced Recommendation)的獲得者:曲彥儒,白婷,與這兩位圖神經網絡領域的專家深入探討當前的學術及工程熱點“圖神經網絡”的發展和應用,希望對大家有所幫助和啓發。

Q : 能否簡要介紹一下圖神經網絡與傳統的神經網絡(比如經典的 Embedding+MLP 結構,以及 RNN 等序列模型)之間的聯繫和區別?

A : 這些模型的共同點在於, 都是通過神經網絡端到端地擬合輸入數據和輸出數據之間的函數關係。他們之間最主要的區別在於, 不同的模型結構能夠適應不同的先驗知識. 比如全連通神經網絡,沒有假設任何先驗知識, RNN 能夠適應線性和序列性先驗, 圖神經網絡能夠適應更加複雜的結構性先驗, 比如定義多個概念之間的關係, 描述複雜的非線性結構等。

此外,相比於其他神經網絡模型,圖神經網絡能夠從結構和功能兩個方面建模數據整體特性,結構是指已有數據本身的相互關聯,是已觀測到的;功能是指信息在圖中傳播、相互影響的過程,與已有結構有關,也與具體應用場景有關。因此,與其他神經網絡模型相比,圖神經網絡在數據建模和信息挖掘上,具有更強的普適性。

Q : 如何看待圖神經網絡在當前學術界的熱度和發展?

A : 圖神經網絡是當前研究的一個熱點,從歷史上看,這是一個很自然的事情。事物存在即產生關聯,網絡無處不在。圖作爲描述網絡的數學語言,能夠很好的刻畫萬象的物理世界。關於圖的研究,最早可以追溯到 18 世紀,在 20 世紀已經是一個很重要且熱門的研究點。近年來,隨着深度學習的興起,神經網絡表現出強大的數據擬合和刻畫能力。圖 + 神經網絡,可以說是強強聯合,作爲一種適用場景廣泛,且數據擬合能力強的建模方式,受到學術界的廣泛關注是非常自然的事情。

具體來講,從數據的角度來看,相比於圖像和文本, 圖類型數據的分佈更加廣泛, 圖結構也是更加複雜且一般的數據結構。圖神經網絡是處理圖類型數據的一個通用端到端模型。從原理上來看, 圖神經網絡也能夠更好地適應一些問題, 比如推理。圖神經網絡拓展了機器學習模型的活動範圍, 使得我們能夠高效處理新的數據和問題, 因此近年來取得了較好的發展。目前,圖神經網絡也存在一些普遍問題, 比如如何提升在大規模圖上的效率, 如何降低採樣方法帶來的方差等。

Q : 圖神經網絡和之前的 DeepWalk,Node2vec 等 Graph Embedding 方法有什麼不同?

A : 基於 Random Walk 的 Graph embedding 方法本質上沒有直接處理圖結構, 而是通過將節點和鄰域序列化, 轉化爲類似於文本的線性結構。圖神經網絡的優勢在於能夠直接處理圖結構, 同時進行節點和鄰域之間的信息傳播以及參數更新。兩種方法在不同數據上表現各有優劣, 整體看來圖神經網絡更加端到端, 更加通用。另外,關於 Graph Embedding 的定義和範疇,不同的人有不同的理解,我個人認爲圖神經網絡可以看作是深層的 Graph embedding,因爲不管是使用卷積、注意力等各種不同方式,最終也是得到帶有結構信息的節點低維特徵表示。

Q : 什麼樣的數據更適合圖神經網絡處理?數據的結構特點對最終效果的影響大嗎?

A : 之前說到圖神經網絡的適用性非常強,即與其他神經網絡模型相比,在大部分的應用場景下,效果不會太差,而且更加魯棒。但針對具體的問題,是否選擇圖神經網絡來處理,我覺得主要看應用場景和數據特點。舉個例子,如果數據中序列性非常強,或者要研究的問題跟時間強相關,我個人覺得直接採用序列模型建模更加合適;如果數據比較稀疏,需要鄰域節點做信息協同建模,那基於空間的圖神經網絡就很適合。總之,觀察數據特點,分析研究的問題,圖神經網絡模型也需要根據數據特點來定製。圖神經網絡可以看作萬金油,但不是特效藥。

Q : 文章提出了 NI Model(Neighborhood Interaction Model),是否能夠處理高階關係(>2)數據?高階數據對最終的效果是否有價值?

A : 我們提出的 NI 模型是將知識圖譜引入推薦,通過分別聚合用戶和商品的高階鄰域信息,建模融合鄰居信息的交互。NI 模型可以處理高階的關係,但從實驗效果上,跟已有圖神經網絡的研究一致,2-3 階的圖神經網絡已經能夠達到最優的效果了,階數太低,聚合信息可能不足,階數太高,又可能會引入噪聲數據。在圖神經網絡中,聚合太高階的關係,會導致計算開銷太大,且很多時候會使效果變差。

Q : 圖神經網絡有哪些應用領域和應用場景?

A : 圖神經網絡的應用領域廣泛,圖作爲刻畫網絡的數學語言,個人認爲是可以延續網絡科學應用的各個領域,如: 經濟網絡、通信網絡、交通網絡、社交網絡、購買網絡、生物網絡等各個方面。目前研究比較多的應用場景還是在社交推薦等場景中,尤其是在關係預測、推薦系統、實體搜索、信息傳播等方面。

Q : 圖神經網絡領域還有哪些待解決的熱點問題?如果讓你來選擇 NI Model 工作的下一步方向,你會如何選擇呢?

A : 我認爲有以下幾個方面,一是圖神經網絡的魯棒性和效率問題,包括預訓練圖神經網絡、 降低採樣方法在大規模圖上的方差、如何處理超大規模網絡;二是圖神經網絡的動態性,當引入變化的網絡結構時,如何保證模型的適應性和穩定性;三是圖神經網絡的異構性,當網絡存在異構的邊和節點信息、節點和邊具有屬性信息,如時序信息等,如何將多種異構的語義空間建模在同一個網絡中;四是基於圖神經網絡的高階推理,基於圖邏輯推理是使圖神經網絡具備更強大智能的基礎。這些都是目前圖神經網絡研究中需要進一步研究和探討的問題。鄰域交互模型 (NI model) 主要探究了推薦系統中用戶鄰域 (用戶背景知識) 和商品鄰域 (商品背景知識) 之間的交互關係, 事實上,基於背景知識的圖結構和交互關係是非常普遍的。我們在實驗中發現, 現有的圖神經網絡還不能很好地刻畫鄰域之間的交互, 這說明圖神經網絡本身還有提升的空間。我們希望能夠從鄰域交互模型出發, 進一步改進基礎的圖神經網絡, 此外,也將進一步探討在交互過程中,利用知識圖譜的高階推理帶來推薦模型的性能的提升,在更廣闊的應用場景中帶來一些新的啓發。

專家簡介:

曲彥儒,上海交通大學本碩,UIUC 在讀博士,在 WWW,AAAI,ICDM 等會議發表論文多篇,研究方向信息系統,知識圖譜,自然語言處理。

白婷,中國人民大學博士,計算機學院講師,在 SIGIR、WWW、KDD、CIKM、WSDM、NAACL、TKDE 等會議、期刊發表多篇文章,其中有三篇獲得最佳論文 / 最佳論文候選獎。研究方向是推薦系統,深度學習,社交媒體數據挖掘和用戶行爲分析。

DLP-KDD Workshop 介紹:

DLP-KDD 作爲數據挖掘、機器學習領域學術盛會 KDD 的下設 workshop,由阿里發起,這屆 workshop 由來自阿里巴巴 / 騰訊 / 新浪微博 /Google(DeepMind)/Facebook/ 微軟 /Roku,以及上海交通大學 / 猶他大學等工業界 / 學術界資深同行組成主席團,旨在促進深度學習在廣告、推薦、搜索場景下的應用與業界交流,錄用文章的工程性、實用性很強,推薦算法工程師同行和學術界的研究者們積極參與。

DLP-KDD 2020 的徵稿結束日期是 2020 年 5 月 20 日,詳細投稿信息請點擊這裏進行查看。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章