異構信息網絡
信息網絡是知識表示的結構化文本方式,網絡中包含一系列節點以及節點和節點之間的邊。信息網絡的經典例子如文獻信息網絡,其結構反映了儲存在節點裏的信息的結構,所以稱爲信息網絡。另一個經典的例子就是萬維網,對於這些網絡的研究往往是將其視爲同構信息網絡來分析。隨着信息網絡研究的進一步加深以及近年來各種流行信息網絡的湧現,例如社會媒體網絡,維基百科裏的知識網絡等等,僅僅研究同構信息網絡已經很難滿足需求。
異構信息網絡通過分析網絡中的多種類型節點以及不同類型節點間的多種鏈接關係,能夠準確地區分信息網絡中的不同語意,挖掘出更加具有意義的知識。異構信息網絡普遍存在於生活中的方方面面,例如文獻信息網絡、IMDB電影網絡、Facebook網絡、醫療網絡、電子商務網絡、新聞網絡等等,是當前分析信息網絡的一種熱門而新穎的方法,受到廣泛地關注。
異質信息網絡英文全稱 heterogeneous information network,也可以被譯爲異構信息網絡,但這個概念可能與通信網絡中的異構網絡的概念混淆, 所以大多數都被翻譯爲異質信息網絡。異質信息網絡G=(V,E)包括不同類型的對象和關係,每個對象屬於一個特定的對象類型, 每個關係屬於一個特定的關係類型。比如說文獻網絡、社交媒體網絡等。
文獻信息網絡是一種典型的異構信息網絡,包含了四種不同類型的對象:作者(A),論文(P),會議期刊(C),關鍵詞(K)。有多種鏈接類型連接不同類型的對象,鏈接的類型由鏈接所連接的兩種對象類型定義。對於每一篇論文p∈P,有和作者、會議期刊、關鍵詞、引用論文、被引用論文等之間的鏈接。下圖爲一個·簡單的文獻信息網絡示例,左邊是會議(C),中間是論文(P),右邊是作者(A)
網絡模式是異構信息網絡的元模板,是定義於對象類型T的節點和來自關係R的邊的有向圖,表示爲TG=(T,R)。
網絡模式作爲一種網絡模板,清楚地讓我們瞭解網絡中有多少種對象類型以及這些對象類型之間有怎樣的關係。
文獻信息網絡模式
對於上圖中定義的文獻信息網絡,其網絡模式如下圖所示。作者和論文之間有寫與被寫的關係,論文和會議之間有發表於和發表的關係,論文和關鍵詞之間有使用和被使用的關係,在論文和論文之間還存在着引用和被引用的關係。
元路徑是定義在網絡模式上的鏈接兩類對象的一條路徑,形式化定義爲
表示對象類型之間的一種複合關係,其中代表關係之間的複合算子,表示對象類型,表示關係類型
PathSim算法
儘管已經有很多相似性度量方法,比如路徑數、基於隨機遊走,這些方法大多偏向於高度可見或者高度集中的對象,不能捕捉到對等對象相似性的語義信息。在一些情況下,找到相似的相同類型對象具有十分重要的意義。比如根據自己的領域和聲譽尋找相似的作者。在這種背景下,PathSim算法被提出,由於對等關係應該是對稱的,因此,PathSim是一種基於對稱元路徑的相似性算法。
其中表示在元路徑P下從對象X到對象Y的路徑實例總數,表示在元路徑P下從對象X到對象X自身的路徑實例總數,表示在元路徑P下從對象y到對象y自身的實例總數。
交換矩陣給定網絡G=(V,E)和網絡模式TG,元路徑P=(A1A2…Al)的交換矩陣定義爲
其中WAiAj是類型Ai和Aj之間的鄰接矩陣,M(i,j)表示對象和對象在元路徑P下的路徑實例。利用交換矩陣計算兩個應用程序xi,xj的相似性公式如下
PathSim算法通過元路徑來進行相似性搜索,能夠充分地挖掘異構信息網絡中隱含的豐富語意,更好地滿足用戶的需求。同時,PathSim算法較好地克服了P-PageRank算法偏向於高可見度對象和SimRank算法偏向於高聚集對象的問題。
具體例子
爲了更好的理解PathSim算法的原理,我們結合具體的例子進行說明,以對稱元路徑ACA爲例,它表示的語義是兩個作者(A)在同一個會議(C)上發表過論文。下面是一個網絡中作者和會議間的鄰接矩陣WAC,表示每個作者在每個會議上發表的論文數。
SIGMOD |
VLDB |
ICDE |
KDD |
|
Mike |
2 |
1 |
0 |
0 |
Jim |
50 |
20 |
0 |
0 |
Mary |
2 |
0 |
1 |
0 |
Bob |
2 |
1 |
0 |
0 |
Ann |
0 |
0 |
1 |
1 |
此例中交換矩陣M=WACWCA,計算結果爲
Mike |
Jim |
Mary |
Bob |
Ann |
|
Mike |
5 |
120 |
4 |
5 |
0 |
Jim |
120 |
2900 |
100 |
120 |
0 |
Mary |
4 |
100 |
5 |
4 |
1 |
Bob |
5 |
120 |
4 |
5 |
0 |
Ann |
0 |
0 |
1 |
0 |
2 |
也可以直觀的利用路徑數進行理解
Mike到自身的路徑數爲2*2+1*1=5
Mike到Jim的路徑數爲2*50+1*20=120,Jim到Mike路徑數相同
Mike和Jim之間的相似性可以利用相似性公式進行計算
將交換矩陣的計算結果帶入相似性公式
所以作者Mike和作者Jim之間的相似性爲0.0826