圖論概念:Degree Centrality 和 Betweenness Centrality

該概念是我看到:

http://www.impactjournals.com/oncotarget/index.php?journal=oncotarget&page=article&op=view&path%5B%5D=14140&path%5B%5D=45094

中的:Degree Centrality Betweenness Centrality

【GSE44805 dataset】



知乎上討論圖論概念: https://www.zhihu.com/question/22610633


基本概念

最常見的度量節點Centrality的方式有三種:

clipboard (圖來自:http://orgnet.com/sna.html

Degree Centrality:

這是最常見,也是最簡單的方法。在無向網絡中,我們可以用一個節點的度數(就是社交網絡中用戶的好友數)來衡量Centrality:

C_D(v)= \text{deg}(v)

上圖,節點Diane的好友數最多,有6個人,所以她成爲了Degree Centrality最高的節點。
真實的社交網絡中,Degree Centrality高的那些人一般都是大明星,有很大的知名度,比如微博中的姚晨。

Closeness Centrality:

如果節點到圖中其它節點的最短距離都很小,那麼我們認爲該節點的Closeness Centrality高。
這個定義其實比Degree Centrality從幾何上更符合中心度的概念,因爲到其它節點的平均最短距離最小,意味着這個節點從幾何角度看是出於圖的中心位置。
在上圖中,Fernando和Garth雖然好友數不如Diane,但他們到其它所有節點的最短距離是最小的。(直觀上說,Diane雖然好友數多,但離圖的右半部分的節點更加的遠)

Closeness Centrality高的節點一般扮演的是八婆的角色(gossiper)。他們並不是明星,但是樂於在不同的人羣之間傳遞消息。

Betweenness Centrality:

這個概念解釋稍微麻煩些。
對於網絡中的兩個節點A和B,他們之間的最短路徑可能有很多條。
例如上圖中的Andre和Garth,它們的最短路徑可以是Andre-Diane-Garth, Andre-Beverly-Garth, Andre-Fernando-Garth,有三條。
計算網絡中任意兩個節點的所有最短路徑,如果這些最短路徑中有很多條都經過了某個節點,那麼就認爲這個節點的Betweenness Centrality高:

C_B(v)= \sum_{s \neq v \neq t \in V}\frac{\sigma_{st}(v)}{\sigma_{st}}

其中\sigma_{st}表示的是節點s和t之間的最短路徑的數量,而\sigma_{st}(v)是最短路徑中經過節點v的數量。

上圖中,Heather就是Betweenness Centrality最高的節點,因爲Ike和Jane到其它節點的路徑都需要經過Heather。

概念的擴展

Degree Centrality的本質是什麼?其實是到某個節點的距離爲1的最短路徑的數量。
在這個概念之上,我們可以做一些擴展,例如:
可以定義一種新的Centrality,表示到某個節點的距離爲k的最短路徑的數量 –  geodesic k-path centrality;還可以將最短路徑的概念替換成Edge-disjoint path,centrality變成了 edge-disjoint k-path centrality;

“It is apparent that the variations among the degree-based measures are due entirely to the kinds of restrictions placed on the kinds of walks counted. This defines one typological dimension that we can use to classify measures. We refer to this dimension as Walk Type.”

Closeness Centrality採用的是兩點間所有路徑的最短值。一個可能的變種是不採用最短值,而是使用兩點間所有路徑的平均值;原始的定義是計算節點到網絡中所有其它節點的最短路徑長度,還可以考慮先定義一些關鍵的節點,我們只計算到這些關鍵節點的最短路徑長度-centroid centrality;

degree-like measure“count the number or volume of walks (of some kind) joining each node to all others. We shall refer to these as volume measures. Another set of centrality measures assesses the lengths of the walks that a node is involved in. We call these length measures. The distinction between volume measures and length measures forms another classificatory dimension, which we call Walk Property.”

Betweenness Centrality計算的是經過某節點的最短路徑的數量,一個可能的變種是不使用最短路徑,而是採用所有經過該節點的路徑數量。當然,所有的路徑可能太寬泛了,可以只計算經過該節點的長度爲k的路徑 – k-betweenness centrality;

“All  of  the  measures  considered  so  far—including  both  the  volume  and  the  length measures—assess walks that emanate from or terminate with a given node. We shall refer to these as radial measures. Another class of centrality measures exists which are based on the number of walks that pass through a given node. We call these medial measures. The distinction between radial and medial measures forms the third classificatory dimension, which we call Walk Position.”

詳細的centrality的擴展和分類見: “A Graph-theoretic perspective on centrality, 2006”

結語

爲什麼要提及概念的擴展。因爲在大數據量下,經典的Closeness Centrality和Betwenness Centrality幾乎都是不可計算的。我認爲,在大數據的前提下,應該定義一些適合大規模計算的新的Centrality。
另外,從廣義上說,PageRank其實也是一種定義網絡中節點Centrality的方法。

—END—





---------------

heatmap: http://hemi.biocuckoo.org/index.php

直腸癌免疫評分: http://clincancerres.aacrjournals.org/content/20/7/1891.long#ref-15

https://greatpowerlaw.wordpress.com/2012/10/29/centrality/



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章