1 图的度量——cs224w

原創

2020-07-03 03:42

1. 怎么衡量一个网络

有四个指标：

1.1 Degree Distribution

度的分布直方图：统计不同度的个数。将其归一化后，则反映了其分布

1.2 path

有向图和无向图之间距离的长度不同

有了节点之间的度量方式，我们需要了解一对节点之间的最大/最小距离。

1.3 cluster coefficient

聚类系数起源于社交网络。在这里老师举了一个栗子：如果A和B是朋友，B和C是朋友，那么A和C可能成为朋友。
所以，在图中 $C_i$ 代表第 $i$ 个节点的聚合系数。 $k_i$ 代表第 $i$ 个节点的度， $e_i$ 则代表第 $i$ 个节点的邻居相互连接边的数量。

在下图中：

左图： $k_i=4, e_i=4+2=6$
中间： $k_i=4, e_i=3$
右边： $k_i=4, e_i=0$

1.4 图组件的大小

计算图中各个部分的大小的方法，类似于数据结构中图的深度和广度遍历

2 一个具体的例子

2.1 Degree distribution

但是这种统计方式有一个缺陷，当某一个度的数量非常大时，归一化之后其他的度基本上为0了，所以采用对数轴进行绘制。
以msn交流为例：

但是这种统计方式有一个缺陷，当某一个度的数量非常大时，归一化之后其他的度基本上为0了，所以采用对数轴进行绘制。
以msn交流为例：

2.2 Clustering coefficient

2.3 Components size

不同组大小的个数统计。包含节点数最多的一个组是 $2*10^8$ ，其中有大约 $10^6$ 个孤立点。

3. 最简单的一种图模型——随机图模型

3.1 生成随机图

在这种模型中，两个节点之间的连接方式都满足独立同分布的概率 $p$ 。所以，即使给定了节点数量以及连接的概率，每次生成图的样子都是不一样的。

相当于拿着硬币抛，来决定两个节点之间是否相连。

另外，对于这样的图，有更一般的表示方法， $G_{n,m}$ 中， $n$ 表示节点数目， $m$ 表示 $m$ 条边。

对于这样的图，我们如何采用上述提到的四个方法进行度量呢？

3.2 随机图

3.2.1 随机图的Degree Distribution

考虑这样的情况，从 $n$ 个节点中选中其中一个节点作为研究点，那么，至多有 $n-1$ 个节点与之相连。在这 $n-1$ 个节点中，找出 $k$ 个与之相连的组合为 $\binom{n-1}{k}$ ，那么， $k$ 个节点都与之相连的概率为 $p^k$ ，剩下的 $n-1-k$ 个节点不与之相连的概率为 $(1-p)^{n-1-k}$ 。

故而 $p(k)$ 的意义为：在有 $n$ 个节点的情况下，有 $k$ 个节点与其中某一节点相连的概率。

通常情况下，二项分布的期望和方差分别为： $p(n-1)$ 和 $p(1-p)(n-1)$ 。

但是，当这个无限大的时候，会出现什么情况呢？

方差除以均值的意义为：

随着图size的增加（无限大），变异系数表现为趋近于0。这说明，随着节点数的增加，the degree distribution 会变得越来越窄。在这样的情况下，我们认为节点的度数接近于 $k$ 的值，也就是说，可以认为所有节点都拥有相同的度。

结论：随着节点数的增加，变异系数趋近于0，节点的度数可近似认为是k。

3.2.2 cluster coefficient

在随机图中，每一条边都符合独立同分布，故而，相连的 $k$ 个节点中，任意2个相连节点共有： $\binom{k}{2}$ 可能。所以，期望为 $p\binom{k}{2}$ ，代入到clustering coefficient公式中为： $E[C]=\frac{2E[e_i]}{k_i[k_i-1]}=p$ 。

又因： $\bar{k}=p(n-1)$

故： $p=\frac{\bar{k}}{n-1}$

$E[C]$ 所代表的意义为：在一个图模型中，当度的期望保持不变时，随着图中节点数的增加，其对应边的数量也在增加，聚合系数的期望趋近于0.

3.2.3 path

在本节中，首先要定义一个东西：expension $\alpha$ 。
定义：expension $\alpha$ 是指，若图 $G$ 拥有 $V$ 个顶点和 $E$ 条边，且 $S$ 是集合 $V$ 中任意一个子集合，则原图模型中，连接到 $S$ 边的数量， $S$ 个节点中边的数量和 $V$ 剩下节点边数量最小值之比，在这些比例中，选出一个最小的，称为expension。

通俗的说就是：我要从图中拿一些节点出来，需要剪断的边的数量。

换句话说，当我们从S为一个点的时候，min(|S|,|V \ S|)应该为1而不是n-1

第一张图中，expension为 $1/5$ ，选择5个节点时，只要断一条边就能够使其完全分离。

随着P的变化，图component的变化情况。

MSN网络与随机图的差别：

最后得到的结论：随机图是一个错误的模型，但是它能够为我们研究图提供一些思路。

参考文献

课程链接

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.