鏈路預測的圖特徵學習和特徵提取技術

本文爲<Review on Graph Feature Learning and Feature Extrction Techniques for Link Prediction> author:Ece C.Mutlu
的閱讀筆記。

摘要

學習網絡來預測新的相互關係在網絡科學和機器學習領域都是一個常見的研究問題。這種預測網絡中以後或是遺失的關係的問題叫做鏈路預測。機器學習研究把這個問題作爲聚類或是分類任務來探討。在通過機器學習模型來處理網絡數據集時會包含一些障礙,包括未定義的歐氏距離,提取合適的特徵,由於真實網絡的稀疏性導致的不平衡的分類,或是爲了保留學習網絡的結構而將圖嵌入到低維向量空間。廣泛的研究已經從不同方面解釋了這些問題,並提出了一些在特定問題上表現好的方法,但是不是一個全局解。這份調查中,我們回顧了鏈路預測問題核心部分的通用的技術,這項技術在實際中可以與特定領域的遺傳算法結合起來。據我們所知,這份調查是第一份綜述研究,考慮了所有提到的關於學習網絡和發展它們到機器學習模型的一系列挑戰。關於網絡數據集的特徵提取技術,我們提出了一個不同的研究,包括相似矩陣,最大似然方法,概率方法和圖表示學習。我們其它的貢獻包括,提出一個對鏈路預測方法的分類,並繼續引入有價值的網絡數據來學習鏈路預測問題。我們最後的貢獻是提出和討論了一些模型,包括一個多流特徵學習模型來利用本地或是準本地的特徵提取技術來和圖表示學習的好處。

介紹

複雜網絡在理解社會網絡的信息融合內容中被廣泛研究,人們之間的關係,蛋白質結構的相似,人們之間的貿易、合作關係或是國家的結構。這種“連通性”吸引着研究人員全面調查複雜網絡。社會網絡,我們所熟悉的,或許是複雜網絡的一個首要例子。社會網絡通過人和人之間的關係結合在一起來構建的,不管它們的區域距離,不同的文化甚至不同的語言。社交網絡的使用有助於接受來自世界各地的新聞,和朋友交流,跟進科學發展等。另一個複雜網絡的例子是信息網絡,也被叫做“知識網絡”[82],和社會網絡的結構相似。最普遍的關於信息網絡的例子是引用網絡,作者通過他們的科學出版物和共同引用建立聯繫[35]。生物網絡,在另一方面,或許提供了複雜網絡的另一個例子,其代表着蛋白質之間的關係,代謝方式或是組織之間的基因聯繫。這些獨立而不同的網絡在網絡結構中的關係都可以簡化成一個由點和邊組成的圖[47]。這些圖能被定義爲G=<V,E>其中V是一組頂點,E是圖中邊的集合。對於複雜的動態複雜網絡圖,頂點和邊的集合會隨着新的用戶的引入而變化,新的鏈接會隨着新的連接而出現。複雜網絡的圖或許包含大量的社區,這些社區中都是通過強而緊的連接來幫助區分社區,而且社區之間是通過弱連接連在一起的。[13]

爲了給複雜網絡提供一些可視化的例子,圖1a顯示了著名的Zachary的空手道俱樂部網絡。這幅圖顯示了34名空手道俱樂部成員在俱樂部外的關係,並且基於兩個中心任務(1號和34號)來着色。矩陣通過節點之間的連接來形成,這被稱作“鄰接矩陣”。這個矩陣提供了空手道俱樂部成員之間是否存在連接的信息。


在圖1b中,這些連接用黃色來表示,藍色區域則表示成員之間不存在連接。由於這個網絡很稀疏,很小,所以我們可以很容易的觀察個體之間的關係。



爲了說明稠密圖的可視化,圖2顯示了SNAP Facebook數據集的一個自我網絡的結構。如圖所示,顏色還代表着網絡之間的連接數,也被稱爲“度”或是“親密度”,其由最短路徑所衡量。

最古老的關於網絡科學的研究是基於隨機圖的[37]由Erdos和Renyi所提出,在隨機圖中,n個節點有n(n-1)/2個可能隨機的邊由概率p生成。對隨機圖做了廣泛的研究,證明了網絡的共性和它們的概率分佈,爲以後的工作提供了新的思路。[6,17,36,41,56]之後的研究將重點放到真實的網絡中,而不是隨機生成的,並解釋了它們的形成和演變。關於計算網絡的研究分析主要包含複雜網絡的統計分析[28,77,92],社區檢驗和節點分類[38,61,89],網絡隨時間的動態演化[31,32,58,111],信息融合和級聯分析[9,42,97,116],數據挖掘[29,96,103]和圖的可視化[18,24,78,112]等。在複雜網絡中最有趣和持續存在的挑戰就是鏈路預測問題。這個挑戰目標在推斷節點之間連接的存在性,理解結構和網絡的形成,來預測實體對之間尚未存在的連接。連接預測的應用包括在線推薦系統,基於交通圖的路線推薦,疾病流行模式以及複雜網絡中的信息擴散[66,75]。
在鏈路預測挑戰中存在的主要障礙是待分析的信息量(節點、連接、特徵)與用於分析的方法的複雜性之間要作出一個平衡。這個問題變得很顯然特別是學習真實世界包含數以千計的節點和連接的網絡[75]。更多的,網絡數據集還存在網絡稀疏導致的不平衡性問題。
基於特徵節點(局部)或是路徑(全局)的相似矩陣關於相鄰節點的計算,鏈路預測主要研究無監督圖表示和特徵學習方法。然而來鏈路預測任務也能通過使用監督機器學習算法來克服。對於鏈路預測任務的機器學習模型可以i)利用相似性度量作爲輸入特徵ii)將節點嵌入低維向量空間,同時保留圖的拓撲結構iii)將i)和ii)中的節點屬性向結合起來。鏈路預測基於的假設是越相似的節點,越有可能相互連接。圖特徵學習技術從另一個方面來說包含圖拓撲的結束和結構特徵來基於成對的相似度量計算分數函數。Common neighbors, preferential attachment, Jaccard, Katz and Adamic Adar都是一些被廣泛使用,用來度量圖中邊的聯繫的相似程度的。儘管這些方法看起來似乎過時了,它們其實遠遠沒有過時。儘管它們沒有發現圖的屬性,它們還是由於其簡單,可解釋和可拓展[121]風靡了很多年。這些方法提供了機器學習可以學習的特徵。
接下來的論文的結構如下。首先,我們研究初步方案,並描述這個問題,然後我們列出我們在這次調查中的貢獻。在第二部分將會回顧一些相似度量的技術,並提供其定義。我們將在第三部分介紹極大似然法來進行鏈路預測,第四部分介紹概率方法。第五部分致力於圖嵌入法和表示學習。一個關於一些監督鏈路預測模型將在第6部分討論。第七部分包括文獻綜合鏈路預測的來源。在第八部分,介紹了一些網絡數據集。最後,在第九部分,我們討論回顧了一些方法,並提出日後學習的分類模型。附錄包括所提的分類和補充材料。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章