1. 怎么衡量一个网络
有四个指标:
1.1 Degree Distribution
度的分布直方图:统计不同度的个数。将其归一化后,则反映了其分布
1.2 path
有向图和无向图之间距离的长度不同
有了节点之间的度量方式,我们需要了解一对节点之间的最大/最小距离。
1.3 cluster coefficient
聚类系数起源于社交网络。在这里老师举了一个栗子:如果A和B是朋友,B和C是朋友,那么A和C可能成为朋友。
所以,在图中代表第个节点的聚合系数。代表第个节点的度,则代表第个节点的邻居相互连接边的数量。
在下图中:
- 左图:
- 中间:
- 右边:
1.4 图组件的大小
计算图中各个部分的大小的方法,类似于数据结构中图的深度和广度遍历
2 一个具体的例子
2.1 Degree distribution
但是这种统计方式有一个缺陷,当某一个度的数量非常大时,归一化之后其他的度基本上为0了,所以采用对数轴进行绘制。
以msn交流为例:
但是这种统计方式有一个缺陷,当某一个度的数量非常大时,归一化之后其他的度基本上为0了,所以采用对数轴进行绘制。
以msn交流为例:
2.2 Clustering coefficient
2.3 Components size
不同组大小的个数统计。包含节点数最多的一个组是,其中有大约个孤立点。
3. 最简单的一种图模型——随机图模型
3.1 生成随机图
在这种模型中,两个节点之间的连接方式都满足独立同分布的概率。所以,即使给定了节点数量以及连接的概率,每次生成图的样子都是不一样的。
相当于拿着硬币抛,来决定两个节点之间是否相连。
另外,对于这样的图,有更一般的表示方法,中,表示节点数目,表示条边。
对于这样的图,我们如何采用上述提到的四个方法进行度量呢?
3.2 随机图
3.2.1 随机图的Degree Distribution
考虑这样的情况,从个节点中选中其中一个节点作为研究点,那么,至多有个节点与之相连。在这个节点中,找出个与之相连的组合为,那么,个节点都与之相连的概率为,剩下的个节点不与之相连的概率为。
故而的意义为:在有个节点的情况下,有个节点与其中某一节点相连的概率。
通常情况下,二项分布的期望和方差分别为:和。
但是,当这个无限大的时候,会出现什么情况呢?
方差除以均值的意义为:
随着图size的增加(无限大),变异系数表现为趋近于0。这说明,随着节点数的增加,the degree distribution 会变得越来越窄。在这样的情况下,我们认为节点的度数接近于的值,也就是说,可以认为所有节点都拥有相同的度。
结论:随着节点数的增加,变异系数趋近于0,节点的度数可近似认为是k。
3.2.2 cluster coefficient
在随机图中,每一条边都符合独立同分布,故而,相连的个节点中,任意2个相连节点共有:可能。所以,期望为,代入到clustering coefficient公式中为:。
又因:
故:
所代表的意义为:在一个图模型中,当度的期望保持不变时,随着图中节点数的增加,其对应边的数量也在增加,聚合系数的期望趋近于0.
3.2.3 path
在本节中,首先要定义一个东西:expension 。
定义:expension 是指,若图拥有个顶点和条边,且是集合中任意一个子集合,则原图模型中,连接到边的数量,个节点中边的数量和剩下节点边数量最小值之比,在这些比例中,选出一个最小的,称为expension。
通俗的说就是:我要从图中拿一些节点出来,需要剪断的边的数量。
换句话说,当我们从S为一个点的时候,min(|S|,|V \ S|)应该为1而不是n-1
- 第一张图中,expension为,选择5个节点时,只要断一条边就能够使其完全分离。
随着P的变化,图component的变化情况。
MSN网络与随机图的差别:
最后得到的结论:随机图是一个错误的模型,但是它能够为我们研究图提供一些思路。