1. 怎麼衡量一個網絡
有四個指標:
1.1 Degree Distribution
度的分佈直方圖:統計不同度的個數。將其歸一化後,則反映了其分佈
1.2 path
有向圖和無向圖之間距離的長度不同
有了節點之間的度量方式,我們需要了解一對節點之間的最大/最小距離。
1.3 cluster coefficient
聚類係數起源於社交網絡。在這裏老師舉了一個栗子:如果A和B是朋友,B和C是朋友,那麼A和C可能成爲朋友。
所以,在圖中代表第個節點的聚合係數。代表第個節點的度,則代表第個節點的鄰居相互連接邊的數量。
在下圖中:
- 左圖:
- 中間:
- 右邊:
1.4 圖組件的大小
計算圖中各個部分的大小的方法,類似於數據結構中圖的深度和廣度遍歷
2 一個具體的例子
2.1 Degree distribution
但是這種統計方式有一個缺陷,當某一個度的數量非常大時,歸一化之後其他的度基本上爲0了,所以採用對數軸進行繪製。
以msn交流爲例:
但是這種統計方式有一個缺陷,當某一個度的數量非常大時,歸一化之後其他的度基本上爲0了,所以採用對數軸進行繪製。
以msn交流爲例:
2.2 Clustering coefficient
2.3 Components size
不同組大小的個數統計。包含節點數最多的一個組是,其中有大約個孤立點。
3. 最簡單的一種圖模型——隨機圖模型
3.1 生成隨機圖
在這種模型中,兩個節點之間的連接方式都滿足獨立同分布的概率。所以,即使給定了節點數量以及連接的概率,每次生成圖的樣子都是不一樣的。
相當於拿着硬幣拋,來決定兩個節點之間是否相連。
另外,對於這樣的圖,有更一般的表示方法,中,表示節點數目,表示條邊。
對於這樣的圖,我們如何採用上述提到的四個方法進行度量呢?
3.2 隨機圖
3.2.1 隨機圖的Degree Distribution
考慮這樣的情況,從個節點中選中其中一個節點作爲研究點,那麼,至多有個節點與之相連。在這個節點中,找出個與之相連的組合爲,那麼,個節點都與之相連的概率爲,剩下的個節點不與之相連的概率爲。
故而的意義爲:在有個節點的情況下,有個節點與其中某一節點相連的概率。
通常情況下,二項分佈的期望和方差分別爲:和。
但是,當這個無限大的時候,會出現什麼情況呢?
方差除以均值的意義爲:
隨着圖size的增加(無限大),變異係數表現爲趨近於0。這說明,隨着節點數的增加,the degree distribution 會變得越來越窄。在這樣的情況下,我們認爲節點的度數接近於的值,也就是說,可以認爲所有節點都擁有相同的度。
結論:隨着節點數的增加,變異係數趨近於0,節點的度數可近似認爲是k。
3.2.2 cluster coefficient
在隨機圖中,每一條邊都符合獨立同分布,故而,相連的個節點中,任意2個相連節點共有:可能。所以,期望爲,代入到clustering coefficient公式中爲:。
又因:
故:
所代表的意義爲:在一個圖模型中,當度的期望保持不變時,隨着圖中節點數的增加,其對應邊的數量也在增加,聚合係數的期望趨近於0.
3.2.3 path
在本節中,首先要定義一個東西:expension 。
定義:expension 是指,若圖擁有個頂點和條邊,且是集合中任意一個子集合,則原圖模型中,連接到邊的數量,個節點中邊的數量和剩下節點邊數量最小值之比,在這些比例中,選出一個最小的,稱爲expension。
通俗的說就是:我要從圖中拿一些節點出來,需要剪斷的邊的數量。
換句話說,當我們從S爲一個點的時候,min(|S|,|V \ S|)應該爲1而不是n-1
- 第一張圖中,expension爲,選擇5個節點時,只要斷一條邊就能夠使其完全分離。
隨着P的變化,圖component的變化情況。
MSN網絡與隨機圖的差別:
最後得到的結論:隨機圖是一個錯誤的模型,但是它能夠爲我們研究圖提供一些思路。