文獻閱讀(一)WWW2018-Continuous-Time Dynamic Network Embeddings

本文是對《Continuous-Time Dynamic Network Embeddings》一文的淺顯翻譯與理解,原文章已上傳至個人資源,如有侵權即刻刪除。
更多網絡表示學習相關文章,請移步:文獻閱讀總結:網絡表示學習

前言

相比以前的不關注時間的算法,該算法可以在時序網絡上學習網絡表示。將先前的算法定義爲A,該算法定義爲B,那麼有如下區別:

對A,定義網絡爲G=(V,Et),V爲頂點集,Et爲邊集,定義邊爲e=(u,v),u爲起點,v爲終點;而B,定義網絡爲G=(V,Et,T),T爲計算時間的函數,定義邊爲e=(u,v,t),t爲每條邊對應的時間。

B算法更多地考慮到了網絡中時間的重要性,將每條邊所佔的時間僅限制在最小值w和最大值L之間,增加了其變化的可能性。

在選取初始點和邊時,可以定義一個時間t,通過在分佈中採樣,選擇一條初始邊,其起點就是初始點。分佈包括有偏置和無偏置兩種,對無偏置而言,採樣中的每條邊被選中的概率都是一樣的。有偏置的情況下,可以通過指數或線性函數,來使得與t時間最接近的邊概率更大。

在選定初始邊之後,進行時序隨機遊走的方法,仍然分爲有偏置和無偏置兩種分佈選擇以後每一次的節點,其方法同上。

總而言之,該算法更加註重時間在動態網絡中的重要地位,並通過與一些經典算法的性能比較,證明了其有效性和優越性。


Title

《連續時間動態網絡嵌入》(201804)
——Third International Workshop on Learning Representations for Big Networks
Authors:Ryan A. Rossi;Nesreen K. Ahmed

Abstract

網絡在對節點和邊界的增添、刪除和改變中不斷髮展。儘管很多網絡包含着時序類型的信息,然而對網絡表示學習的研究,還多數集中於圖像的靜態快照上,並且很大程度上忽略了網絡的時序動態。本文介紹了一個將時序信息結合到網絡嵌入方法中的綜合框架。該框架給出了從連續時間動態網絡中學習時間依賴嵌入的方法。總的來說,本實驗在所有方法和圖像中均達到了11.9%的平均增益,進而證明了所述框架和動態網絡嵌入算法的性能。這一結果表明圖的建模時序依賴性,對學習合適且有意義的網絡表示比較重要。

CCS Concepts

Computing methodologies→Machine learning; Artificial intelligence; Logical and relational learning;
計算方法——機器學習;人工智能;邏輯和關係學習
Mathematics of computing→Graph theory; Graph algorithms;
計算數學——圖理論;圖算法
Theory of computation→Streaming, sublinear and near linear time algorithms;
計算理論——流體、亞線性和近線性時間算法
Information systems→Data mining;
信息系統——數據挖掘

Keywords

動態網絡嵌入;時序節點嵌入;動態網絡;網絡表示學習;時序隨機遊動;連續時間動態網絡;圖流;特徵學習;時序網絡;


1 Introduction

近年來,網絡(圖/關係)數據所佔比率大幅增長,其在領域中的呈現形式包括:因特網和萬維網、科學引用與協作、流行病學、通信分析、新陳代謝、生態系統、生物信息學、詐騙與暴力分析等。在這些網絡數據中,連接通常代表引用、友誼、關聯、變化函數、通信、協同定位、共享設備等諸多明確或潛在的關係。

這些現實世界的大部分網絡都是動態地添加、刪除和修改那些,隨着時間推移自然演化的節點與連接。網絡中的時序信息因對於精確模型、預測以及理解網絡數據的重要性被人所熟知。儘管動態是重要的,但在早先的大多數工作中卻忽視了網絡數據中的時序信息。

在此,我們提出了從連續時間動態網絡中學習合適網絡表示的問題,從而提高預測模型的準確性。我們描述了將動態依賴性結合到網絡嵌入方法中的綜合框架,該框架作爲基礎可以將時序依賴,結合到現行節點嵌入和基於隨機遊走的深度圖模型中。成果非常適用於時間依賴網絡表示,它抓住了連續時間動態網絡的重要時序性能。因此,該框架允許現行嵌入算法能輕易地適應,從連續時間動態網絡中學習更適合的網絡表示,通過確保時間在學習及通過避免虛假或不可能事件來減少噪聲的過程中是被重視的。

所述算法從連續時間動態網絡中學習了更合適的網絡表示,抓住了最佳的自然粒度(如秒或毫秒規模)下網絡的重要時序依賴性。這與將動態網絡表示成爲靜態快照圖序列形成對比,該序列中每張靜態快照圖表示着所有邊界,這些圖出現在用戶指定離散時間間隔之間(如日或周)。這可以看作是現實連續時間動態網絡的一個非常粗糙與嘈雜的近似值。除信息的損失外,還有很多其他的問題如選出合適的粒度集合,這些問題因自身有某些重要且具有挑戰的困難而廣爲人知,從而會導致預測性能微弱或錯誤性結果。此外,我們的方法天然支持在邊界達到連續時間變化(如每秒或毫秒)的圖流中學習,因而產生能被用於各類應用需求的實時性能。

我們證明了所述框架的有效性,並將動態網絡嵌入算法推廣到各類應用領域的幾種現實網絡中的時間鏈接預測中。總的來說,提出的方法在所有的方法和圖裏均達到了11.9%的平均增益。結果顯示,圖的建模時間依賴性對學習合適且有意義的網絡表示比較重要。此外,任何運用了隨機遊走的現行嵌入方法或深度圖模型都能從本框架中受益,因其充當了結合重要時序依賴到現行方法中的基礎。通過框架推廣的算法能夠學習更多有意義且準確的,抓住了連續時間動態網絡重要性的時間依賴網絡嵌入。

早先的網絡嵌入方法與深度圖模型使用隨機遊走搜索在G上的隨機遊動空間S,而所述方法則通過搜索,整個遵循時間進行時序隨機遊走的ST,學習時序嵌入。通俗地說,一個隨機遊動的St從節點Vi1到節點Vil+1被定義爲一個邊的序列{(Vi1,Vi2,Ti1),(Vi2,Vi3,Ti2),…,(Vil,Vil+1,Til)},其中Ti1<=Ti2<=…<=Til。一次時序遊走代表了一個按時間增序遍歷邊的有效時序序列,因此重視時間。例如,假設每條邊都代表了一條兩實體間的聯繫(如郵件、電話、距離),那麼一次時序遊走就代表了一條消息通過動態網絡的可行路線。顯而易見,忽略時間的現行方法從隨機遊走集中學習嵌入,其中絕大多數隨機遊走捕獲的時間序列在考慮時間的情況下是無效的。換言之,許多曾使用這些方法爲節點派生嵌入的隨機遊走,在重視時間的情況下實際上並不可靠。例如,假設我們有兩封郵件,ei=(v1,v2)指從v1發送到v2,ej=(v2,v3)指從v2發送到v3,並設T(v1,v2)爲郵件ei的發送時間。當T(v1,v2)<T(v2,v3)時,郵件ej(v2,v3)可能會反映來自郵件ei(v1,v2)通訊的信息。反之,當T(v1,v2)>T(v2,v3)時,郵件ej(v2,v3)就不包括任何來自郵件ei(v1,v2)通訊的信息。這只是個簡單的例子,用來說明對現實事件序列(郵件通訊)建模的重要性。嵌入方法忽略時間容易引發大量問題,如學習不適當節點嵌入,就不能準確捕獲現實世界交互或節點間信息流之類的網絡動態。下圖是另一個因不重視時間導致信息丟失的例子。
在這裏插入圖片描述
該方法有以下預期的特性:
通用且統一的框架 我們提出一個概括性的框架,將時序依賴結合到利用隨機遊走的節點嵌入和深度圖模型中。
連續時間動態網絡 學習連續時間動態網絡的時間依賴網絡表示。該算法避免了由於從圖的連續時間表示中創建離散快照圖序列,而導致的信息的問題與損失。
有效性 所述算法被證明是學習動態網絡表示的有效方法。我們在各類應用領域的所有方法和圖像中,均達到了11.9%的平均增益目標。


2 Framework

本章敘述了從連續時間動態網絡學習時間依賴嵌入的總體框架。

2.1 Temporal Model

在此,我們沒有將動態網絡建模爲一系列被定義爲G1到Gt的有向快照,其中Gi=(V,Et),Et是在(ti-1,ti)時間間隔中活躍的邊。而是仿照連續時間動態網絡的正式定義,對時序交互進行了如下建模:
在這裏插入圖片描述
大意可以理解爲:圖G=(V,Et,T),V是頂點集,Et是定點間的動態邊集,T是函數,可以將每條邊映射到對應的時間戳。在最佳時間間隔下,每條邊ei都能被映射到一個唯一的時間。

在連續時間動態網絡(即時序網絡)中,事件被出現在時間域中某個間隔裏的邊所表示。在這些網絡中,一次有效的遊走用一系列由非遞減時間戳的邊所連接的節點表示。換言之,如果每條邊捕獲到了兩實體間的聯繫,那麼一次有效的時間遊走就代表着,一條信息的可行路徑。更爲正式的定義如下:
在這裏插入圖片描述
大意可以理解爲:一次從v1到v2的時間遊走,是頂點集<v1…vk>中<vi,vi+1>(其中1<=i<k,且1<=i<=(k-1)時,T(vi,vi+1)<=T(vi+1,vi+2),即時間間隔的先後)的頂點序列。對任意兩個頂點u和v,只要存在從u到v的一次時序遊走,就認爲u與v存在時序連接。

關於時序遊走的定義仿照了靜態圖中游走的標準定義,但附加了約束:遊走需要遵照時間,即必須遵照邊遞增的順序遍歷邊。就其本身而言,時間遊走天生就是不對稱的。

我們現在將連續時間動態網絡的學習時間嵌入問題定義爲:給出一個動態網絡G=(V,Et,T),以學習函數f爲目標,該函數將G中的節點用多維時間依賴特徵表示,從而適合下游的機器學習任務(如時序鏈接預測)。所述連續時間動態網絡嵌入框架有兩個主要的可替換部分,允許用戶對時間依賴網絡表示的學習存在時間偏差,接下來將分別介紹兩個組件。

2.2 Initial Temporal Edge Selection

給出一個連續時間動態網絡G=(V,Et,T),如何挑選節點開始一次時序隨機遊走?通過對大多數現存方法的觀察,它們都只將圖中每條邊的隨機遊走時間簡單定義爲一個不變的數字。但是,回想上文從v1到vk的隨機遊走,注意到除節點v之外,一次時間隨機遊走還需要開始時間t。在連續時間動態網絡(定義2.1)中,每條邊ei=(v,u)都與一個時間t相關聯。因此,我們可以從均勻分佈或加權分佈的F中對初試時間t取樣,找到距離t最近的邊ei,或從對任意分佈(均勻或加權)F的取樣中,選取一條初始邊ei=(v,w)和與之相關的時間t=T(ei)。選擇時序隨機遊走的起始點是我們的優勢,這是一種對時序隨機遊走進行時間偏置的方法。因此,當時間依賴嵌入被用於下游時間序列迴歸或分類任務時,能夠提高預測性能。這是本文所述的使用時序隨機遊走的動態網絡嵌入框架,與現行在靜態圖中使用隨機遊走的算法之間,最爲重要且根本的差別。

一般來說,每次時序遊走開始於,在取樣於分佈F的時間t上的一條時序邊ei。用於選取首條動態邊的分佈,可以是沒有時間偏差的均勻分佈,或是存在時間偏差的任意加權分佈。例如,學習用於時序鏈接預測任務的節點嵌入時,我們可能更想從與當前時間點聯繫緊密的邊開始更多的時序遊走,因爲在遙遠過去發生的事件或關係可能對當前系統狀態的預測或指示性較差。以無偏差方式選擇初始動態邊的策略2.2.1,和以時間偏置方式選擇的策略2.2.2,將在下文先後進行討論。
在這裏插入圖片描述
這與從均勻分佈中對初始動態邊取樣相一致。

2.2.2 Biased. 我們提出了兩種對決定時序隨機遊走起始點的初始邊,進行時序偏置選擇的技術。特別地,我們用基於指數和線性函數的時序加權分佈對初始時序邊取樣。此外,連續時間動態網絡嵌入框架比較靈活,且能便捷支持用於選取初始時序邊的其他時間加權分佈。

Exponetial: 我們可以用指數分佈來偏置初始邊選取,在這種情況下,每條邊e都對應一個概率:
在這裏插入圖片描述
tmin是動態圖中一條邊所分配的最小時間,這定義了一個分佈,很大程度上傾向於晚出現的邊。

Linear: 當兩條時間連續的邊出現大的時間偏差時,將邊映射到離散的時間點上可能有所幫助。設η:E->Z+是以時間升序方式將數據集中的邊進行分類的函數,換言之,η將每條邊映射爲一個對初始邊e有η(e)=1的索引。在這種情況下,每條邊e屬於η(Et)都對應一個概率:
在這裏插入圖片描述

2.3 Temporal Random Walk

選擇了t時間的初始邊ei=(u,v,t)進行時序隨機遊走後,如何從邊開始執行一次時序隨機遊走呢?我們定義了一個節點v在t時間的鄰居集合如下:
在這裏插入圖片描述
值得注意的是,有可能同一個鄰居w會多次出現在Γt(v)中,因爲同一對節點中會出現多條時序邊。例如,在一段時間進程裏,兩個人可能會有多次郵件信息交流。時序隨機遊走的下個節點可以在Γt(v)中選擇,我們使用二次分佈對鄰居的選擇進行時間偏置。同樣,該分佈既可以是無偏置的均勻分佈,也可以更直觀地傾向於考慮時間。例如,對於連續的邊,我們可能希望將採樣策略偏向於顯示更短的差值(in-between)時間的遊走。即是說,在隨機遊走中每對相連的邊(u,v,t)和(v,w,t+k),我們都希望k的值更小。對於一個動態社交網絡上的時間鏈接預測而言,限制差值時允許我們採用不同時間段朋友不聚集在一起的遊走。例如,如果k較小,我們傾向於取樣隨機遊走序列(v1,v2,t)(v2,v3,t+k),意義在於v1和v3很可能彼此認識,因爲v2近期與兩者都進行了交互。另一方面,如果k較大,我們就不傾向於對序列取樣。這有助於將v2在非常不同的時間段(如高中和研究生院)進行交互的人區分開,他們不太可能彼此瞭解。

2.3.1 Unbiased. 對於無偏置時間的鄰居選擇,給出一條任意邊e=(u,v,t),v在時間t的每個鄰居w都遵照如下概率被選擇:
在這裏插入圖片描述
2.3.2 Biased. 我們描述了兩種通過指數和現行函數的時間加權分佈,對一次時序遊走中的下個節點進行採樣,從而偏置時序隨機遊走的技術。此外,連續時間動態網絡嵌入框架比較靈活,且能便捷用於其他應用或域依賴的時間偏置函數。

Exponential: 當使用指數式衰減時,我們將概率用公式表示如下。給出任意一條邊e=(u,v,t),每次時間鄰居w被選取的概率都遵照如下表示:
在這裏插入圖片描述
要注意的是,我們在這裏略微地濫用了符號τ,並用它來表示對相應時間的映射。這與在計算機病毒和蠕蟲的傳播中,觀察到的連續接觸的指數式衰減概率很相像。

Linear: 在此,我們定義函數δ:V × R+ ->Z+按照時間降序對時間鄰居進行排序,v在t時間的每個鄰居w的概率被定義如下:
在這裏插入圖片描述
該分佈偏向於選擇時間上與當前節點更緊密的邊。

2.3.3 Temporal context windows. 由於時序遊走是保存時間的,就有可能出現一次遊走遍歷耗盡時序有效邊的情況。因此,我們在取樣時序遊走時,並不嚴格規定長度。與之相反,我們僅僅需要每次時序遊走有一個最小長度w(在此,w相當於連續跳躍的上下界窗口大小)。可以提供最大長度L,來適應較長的遊走。因此,當生成一個時序遊走集合時,任何長度在w到L之間的時間遊走Sti都認爲是有效的。給出一個時間隨機遊走集合{St1…Stk},我們定義了一個能夠從時序隨機遊走中得到上下界差值計數的β,來計算w大小的上下界差值總數。其正規定義如下:
在這裏插入圖片描述
當對時序遊走集進行採樣時,我們通常設β爲N=|V|的倍數。

2.4 Learning Time-preserving Embeddings

給出一個時序遊走St,我們如今可以將,學習保存有時間的節點嵌入到一個CTDN(Continous-Time Dynamic Network)中的任務,公式化爲最優化問題:
在這裏插入圖片描述
其中f:V -> R^D是節點嵌入函數,w是上下界差值的最佳長度,WT = {vi−ω…vi+ω }就如T(vi−ω,vi−ω+1)<…<T(vi+ω−1,vi+ω)一般,是一個任意時序遊走上下界差值。當對源節點vi進行觀測時,我們爲節點間的時間上下界差值設定補充依賴如下:
在這裏插入圖片描述
給出一個圖G,設S爲G上包含所有可能隨機遊走的空間,設ST爲G上包含所有時序隨機遊走的空間。顯然,時序隨機遊走空間ST包含於S,且ST僅表示S中一小部分可能的隨機遊走。現行算法從S中採樣一個隨機遊走的集合s,而本工作集中於從屬於S的ST中取樣一個時間隨機遊走集合。通常,現行算法隨機從S中取樣一次時序隨機遊走的的概率非常之小,且絕大部分靠這些方法採樣的隨機遊走,都代表了節點間的一系列事件,這些事件在重視時間的情況下是無效(不可能)的。例如,假設每條邊表示兩人間的一次交互/事件(如郵件、電話和空間上的接近等),那麼一次時序隨機遊走可能表示,動態網絡上一條可行的信息路徑,或者是一條傳染病傳播的時序有效路徑。

我們概括了Algorithm 1中學習CTDNs時間保存嵌入的步驟,該步驟將連續跳躍框架推廣到連續時間動態網絡中去。此外,該框架能便捷地用於其他利用隨機遊走的深度圖模型,因爲時序遊走可以作爲神經網絡的輸入向量。
在這裏插入圖片描述
在這裏插入圖片描述

2.5 Hyperparameters

相比其他方法像node2vec有許多超級參數需要調試,該框架僅有一個超級參數需要調試。

2.5.1 Arbitrary length walk. 本工作中,我們允許時序遊走具有任意長度,僅是簡單地限定在區間[w,L]中。我們認爲w到L之間任意長度的遊走能夠更準確地表示節點行爲。例如,一次開始於u的遊走能夠在經歷長爲L的邊後再次返回u,呈現了一個封閉的循環。另一方面,又一次從v開始的遊走,只要達到最小長度w就可以快速結束,無論是否返回v。這是兩種相差甚遠的情況,如果施加一個固定的隨機行走長度,就會產生誤解。注意到w和L之間的敏感性,並不會影響實驗所用的大幅圖像整體的性能。然而,對於更大的圖而言,他們的值對數據的依賴更多,並可能會被用戶所修改。
在這裏插入圖片描述
2.5.2 Exponential base. 假設指數函數用於偏置隨機遊走(等式6),或是爲開始時序遊走偏置對初始邊的選擇(等式2),從而允許用戶爲指數分佈選擇指數函數的基數b。在這種情況下,初始化時間邊的選擇(等式6),一個大的基數b可能會導致函數增長過快。值得注意的是,如果對動態網絡時間交互(如邊)的觀測經歷了大的時間跨度,選擇一條近期邊的概率就遠大於其他邊。從而導致在取樣遊走時,就更傾向於近期的邊。

2.6 Model variants

所述的連續時間動態網絡嵌入(CTDNE)框架包括兩個主要的可互換部分,從而產生了各種有用的模型。本節,我們將討論少量將於第三章研究的變體。上文我們使用一種分佈Fs來選擇一條時序隨機遊走的初始邊e(2.2節),此外還用另一種分佈Ft來偏置對一次時序隨機遊走中每條後續邊的選擇(2.3節)。因此,不同的分佈Fs和Ft都能用於偏置隨機遊走的取樣策略。特別地,我們研究了三種從Fs中對初始時間邊e的不同方法,以及在Ft中一次時序隨機遊走的每條後續邊。在2.2及2.3節的討論中,通過進行偏置與未偏置分佈的所有可能組合,產生了九種不同的模型變體。


3 Experiments

實驗的目的在於,用各類應用領域中擁有不同結構和時間特徵的大量圖,研究所述的CTDNE框架的效果。表2提供了用於評估的動態網絡及其統計數據的摘要。
在這裏插入圖片描述
所有網絡都是連續時間動態的,在這些動態網絡中,邊的時間規模爲秒或毫秒級,也就是說,邊的時間戳在秒或毫秒水平下記錄了邊的產生時間(以細粒度輸出)。本方法用最佳時間規模進行輸出,所有數據都從NetworkRepository中得到。

特別地,我們在時序鏈接預測任務中,評估了所述框架的性能。爲生成鏈接預測的標籤化樣本集合,我們首先對每張圖中的邊以時間升序進行排序,並將前75%用於表示學習。剩餘的25%被認爲是正鏈,我們隨機抽取等量的負邊作爲樣本,進而對這些正邊和負邊的標籤化數據X進行鏈接預測。

3.1 Experimental setup

我們根據以下基於線性的方法,對在第二章提出的學習動態表示的框架進行評估:node2vec,DeepWalk及LINE。對node2vec,我們用相同的參數(D=128,R=10,L=80,W=10),並在p,q屬於node2vec所提出的{0.25,0.50,1,2,4}的範圍內進行網格搜索。對於DeepWalk同樣用相同的參數,但令p=q=1從而與node2vec區別開來。至於本文方法,令w=10,L=80,D=128。對LINE,令二階距離D=128,樣本數T=6千萬。

在從每個節點學習過嵌入後,我們遵循node2vec的方法學,並用如下操作之一:ops{權重L1,權重L2,平均數,哈達瑪積(即兩同階矩陣對應位相乘)},結合已學習相應節點的嵌入向量,對一條邊計算特徵向量。

追溯每個數據集,我們爲鏈接預測生成了一個標籤化的數據集X。我們使用邏輯迴歸,對該數據集的25%提供驗證。對10顆隨機種子進行了重複實驗,並記錄了平均性能。除非另有說明,否則我們使用AUC來評估模型。

3.2 Comparsion

出於公平比較,我們令D爲所有比較方法的相同值。此外,我們確保所有基於線性的方法中,用於學習的信息數量相同。特別地,時間上下界窗口的數量B如下表示:
在這裏插入圖片描述
R表示每個節點遊走的數量,L表示線性方法中一次隨機遊走需要的長度。

表1給出了所有比較方法在時序鏈接預測任務上的性能。對該實驗,我們使用所述框架的簡單變體,並對選擇策略沒有任何附加偏置。換言之,Fs和Ft建立在均勻分佈上。我們注意到,不管怎樣,由於我們的時序遊走是服從時間的(定義2.2),取樣已經傾向於出現更晚的邊,就像隨機遊走遍歷不會及時返回一樣。在此我們看到,所述算法要比DeepWalk,node2vec以及LINE一貫執行得更好。這表明當忽略時間信息時,有重要信息丟失了。引人注目的是,我們的模型並未利用node2vec中所介紹的偏置,但其仍然要比這一模式的表現更好。我們可以用第二章中所述的框架,以類似的方式推廣
node2vec。顯然,我們可以期望通過,使用連續時間node2vec概述得到的嵌入,達到更好的預測性能。
在這裏插入圖片描述
表1的最後一行給出了每個動態網絡的平均AUC在所有嵌入方法上的平均增益。在所有情況下,所述算法都能顯著勝過所有動態網絡中的其他嵌入算法。尤其是,在所有嵌入算法和圖中,我們在AUC上達到了11.9%的總增益。這些結果表明,對圖中時間依賴的建模與結合,對於學習合適且有意義的網絡表示而言相當重要。

同樣值得注意的是,通過所述框架,其他很多利用隨機遊走的算法也能夠被擴展,同未來的任何先進嵌入算法一樣。我們還發現,對大多數數據集,對比均勻分佈,使用有偏置的分佈(無論線性還是指數)確實改進了在AUC方面的預測性能。但對其他算法而言,卻沒有顯著的性能增益。這很可能歸因於絕大多數動態網絡研究都只有較短時間間隔(最多三年以上)的事實,表3給出了小部分其他框架變體的結果。特別地,表3顯示了對初始化邊緣選擇策略Fs,和時序隨機遊走中鄰居選擇策略Ft,使用偏置分佈的差異。有趣的是,對Fs使用偏置分佈似乎大大改進了測試數據集。無論如何,對ia-enron-employees而言,當兩種分佈都有偏置時,可以觀測到最佳結果。
在這裏插入圖片描述


4 Related work

近年來,節點嵌入問題得到了研究社羣的廣泛關注。在該問題中,一次低維編碼是從圖裏的每個節點學來的。其目標是學習編碼(如嵌入),捕捉每個節點的關鍵性能,如它們在圖中的位置,或是他們本地的社區結構。由於節點分享它們相似的性能,從而在嵌入空間中彼此緊密地聚集在一起,能夠用來便捷地從諸如排序、社區挖掘、鏈接預測和節點分類等任務中學習嵌入。

許多最初被提出時,用來解決節點嵌入問題的技術,是基於圖的因式分解。最近,連續跳躍模型被引入了自然語言處理領域,來學習單詞的連續向量表示。受到連續跳躍在語言模型的成功啓發,各種各樣的方法都開始提出通過將圖訓練爲“文件”,從而用連續跳躍學習節點嵌入。最爲著名的兩種方法,DeepWalk和node2vec,使用隨機遊走來取樣圖中節點的有向序列,連續跳躍模型於是能在這些序列中被用於學習節點嵌入。

研究者也解決了在非常複雜的圖中進行節點嵌入的問題,包括推薦網絡和異構網絡等。然而,該領域的大部分工作仍然未能考慮隨時間演變的圖(即時序圖)。值得注意的是,該工作中所述的框架能夠被用來推廣這些方法,從而學習更適合的時間依賴嵌入,因爲它們都基於隨機遊走。

少部分工作開始探索時序網絡中的節點嵌入問題。然而,本工作在幾個關鍵問題上不同於先前的工作,尤其是具有更一般的性質。早先工作通常都基於使用時序網絡的離散快照,我們提出的框架能夠將時序依賴結合到,基於時序網絡連續表示的時序隨機遊走的節點嵌入中。此外,本工作還介紹了一個通用框架,能夠作爲推廣其他基於深度學習的隨機遊走和嵌入方法的基礎,來學習更適合時序網絡的時間依賴嵌入。比較起來,其他大多數工作都只是簡單地介紹了關於時序網絡的新算法,因此比起本工作對問題的關注有顯著不同,本工作給出的是一個通用框架,能夠被其他非時序算法利用獲得提升,進而能夠對時間依賴的網絡建模。

對圖的隨機遊走已有數十年的研究,那些基於隨機遊走及其與圖中特徵值和其它基本性能聯繫的理論,較爲容易理解,本工作也與圖上的均勻和非均勻隨機遊走相關。隨機遊走是很多重要應用的核心,諸如排序、社區挖掘、推薦、鏈接預測、影響建模、檢索引擎、局部圖像分析、無線傳感器網絡路徑以及時間序列預測等。這些應用與技術可能也得益於時序隨機遊走的概念。

最近,在開發用於時序網絡建模的網絡分析和機器學習算法方面,出現了大量研究。時序網絡被近期研究所關注,包括時序網絡中的節點分類、時序鏈接預測、動態社羣挖掘,以及動態混合成員角色模型、動態網絡的異常監測、影響建模和在線廣告、在動態網絡中尋找重要實體、時序網絡中心和度量等,時間網絡分析綜述見引文1-29。


5 Conclusion

我們描述了一個用於將時序信息結合到網絡嵌入算法中的通用框架,該框架爲現行基於隨機遊走嵌入算法的推廣提供了基礎,這些算法從連續時間動態網絡中學習動態(時間依賴)網絡嵌入。本成果非常適用於時間依賴的網絡表示,抓住了連續時間動態網絡時序性能的重要性。我們證明了該框架的有效性,並將動態網絡嵌入算法推廣到了對一些現實網絡的時序鏈接預測中。總的來說,所述方法在所有方法和圖中均達到了11.9%的平均增益。我們的成果指出對圖中時間依賴的建模與結合,對於學習合適且有意義的網絡表示來說是比較重要的。未來的工作將研究使用連續時間動態網絡框架,來推廣異構網絡嵌入方法、屬性網絡嵌入方法以及其他方法。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章