1 圖的度量——cs224w

原創

2020-07-03 03:42

1. 怎麼衡量一個網絡

有四個指標：

1.1 Degree Distribution

度的分佈直方圖：統計不同度的個數。將其歸一化後，則反映了其分佈

1.2 path

有向圖和無向圖之間距離的長度不同

有了節點之間的度量方式，我們需要了解一對節點之間的最大/最小距離。

1.3 cluster coefficient

聚類係數起源於社交網絡。在這裏老師舉了一個栗子：如果A和B是朋友，B和C是朋友，那麼A和C可能成爲朋友。
所以，在圖中 $C_i$ 代表第 $i$ 個節點的聚合係數。 $k_i$ 代表第 $i$ 個節點的度， $e_i$ 則代表第 $i$ 個節點的鄰居相互連接邊的數量。

在下圖中：

左圖： $k_i=4, e_i=4+2=6$
中間： $k_i=4, e_i=3$
右邊： $k_i=4, e_i=0$

1.4 圖組件的大小

計算圖中各個部分的大小的方法，類似於數據結構中圖的深度和廣度遍歷

2 一個具體的例子

2.1 Degree distribution

但是這種統計方式有一個缺陷，當某一個度的數量非常大時，歸一化之後其他的度基本上爲0了，所以採用對數軸進行繪製。
以msn交流爲例：

但是這種統計方式有一個缺陷，當某一個度的數量非常大時，歸一化之後其他的度基本上爲0了，所以採用對數軸進行繪製。
以msn交流爲例：

2.2 Clustering coefficient

2.3 Components size

不同組大小的個數統計。包含節點數最多的一個組是 $2*10^8$ ，其中有大約 $10^6$ 個孤立點。

3. 最簡單的一種圖模型——隨機圖模型

3.1 生成隨機圖

在這種模型中，兩個節點之間的連接方式都滿足獨立同分布的概率 $p$ 。所以，即使給定了節點數量以及連接的概率，每次生成圖的樣子都是不一樣的。

相當於拿着硬幣拋，來決定兩個節點之間是否相連。

另外，對於這樣的圖，有更一般的表示方法， $G_{n,m}$ 中， $n$ 表示節點數目， $m$ 表示 $m$ 條邊。

對於這樣的圖，我們如何採用上述提到的四個方法進行度量呢？

3.2 隨機圖

3.2.1 隨機圖的Degree Distribution

考慮這樣的情況，從 $n$ 個節點中選中其中一個節點作爲研究點，那麼，至多有 $n-1$ 個節點與之相連。在這 $n-1$ 個節點中，找出 $k$ 個與之相連的組合爲 $\binom{n-1}{k}$ ，那麼， $k$ 個節點都與之相連的概率爲 $p^k$ ，剩下的 $n-1-k$ 個節點不與之相連的概率爲 $(1-p)^{n-1-k}$ 。

故而 $p(k)$ 的意義爲：在有 $n$ 個節點的情況下，有 $k$ 個節點與其中某一節點相連的概率。

通常情況下，二項分佈的期望和方差分別爲： $p(n-1)$ 和 $p(1-p)(n-1)$ 。

但是，當這個無限大的時候，會出現什麼情況呢？

方差除以均值的意義爲：

隨着圖size的增加（無限大），變異係數表現爲趨近於0。這說明，隨着節點數的增加，the degree distribution 會變得越來越窄。在這樣的情況下，我們認爲節點的度數接近於 $k$ 的值，也就是說，可以認爲所有節點都擁有相同的度。

結論：隨着節點數的增加，變異係數趨近於0，節點的度數可近似認爲是k。

3.2.2 cluster coefficient

在隨機圖中，每一條邊都符合獨立同分布，故而，相連的 $k$ 個節點中，任意2個相連節點共有： $\binom{k}{2}$ 可能。所以，期望爲 $p\binom{k}{2}$ ，代入到clustering coefficient公式中爲： $E[C]=\frac{2E[e_i]}{k_i[k_i-1]}=p$ 。

又因： $\bar{k}=p(n-1)$

故： $p=\frac{\bar{k}}{n-1}$

$E[C]$ 所代表的意義爲：在一個圖模型中，當度的期望保持不變時，隨着圖中節點數的增加，其對應邊的數量也在增加，聚合係數的期望趨近於0.

3.2.3 path

在本節中，首先要定義一個東西：expension $\alpha$ 。
定義：expension $\alpha$ 是指，若圖 $G$ 擁有 $V$ 個頂點和 $E$ 條邊，且 $S$ 是集合 $V$ 中任意一個子集合，則原圖模型中，連接到 $S$ 邊的數量， $S$ 個節點中邊的數量和 $V$ 剩下節點邊數量最小值之比，在這些比例中，選出一個最小的，稱爲expension。

通俗的說就是：我要從圖中拿一些節點出來，需要剪斷的邊的數量。

換句話說，當我們從S爲一個點的時候，min(|S|,|V \ S|)應該爲1而不是n-1

第一張圖中，expension爲 $1/5$ ，選擇5個節點時，只要斷一條邊就能夠使其完全分離。

隨着P的變化，圖component的變化情況。

MSN網絡與隨機圖的差別：

最後得到的結論：隨機圖是一個錯誤的模型，但是它能夠爲我們研究圖提供一些思路。

參考文獻

課程鏈接

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.