1 图的度量——cs224w

1. 怎么衡量一个网络

有四个指标:
在这里插入图片描述

1.1 Degree Distribution

度的分布直方图:统计不同度的个数。将其归一化后,则反映了其分布
在这里插入图片描述

1.2 path

在这里插入图片描述
有向图和无向图之间距离的长度不同
在这里插入图片描述
有了节点之间的度量方式,我们需要了解一对节点之间的最大/最小距离。

1.3 cluster coefficient

聚类系数起源于社交网络。在这里老师举了一个栗子:如果A和B是朋友,B和C是朋友,那么A和C可能成为朋友。
所以,在图中CiC_i代表第ii个节点的聚合系数。kik_i代表第ii个节点的度,eie_i则代表第ii个节点的邻居相互连接边的数量。

在下图中:

  • 左图:ki=4,ei=4+2=6k_i=4, e_i=4+2=6
  • 中间:ki=4,ei=3k_i=4, e_i=3
  • 右边:ki=4,ei=0k_i=4, e_i=0
    在这里插入图片描述

1.4 图组件的大小

计算图中各个部分的大小的方法,类似于数据结构中图的深度和广度遍历
在这里插入图片描述

2 一个具体的例子

2.1 Degree distribution

但是这种统计方式有一个缺陷,当某一个度的数量非常大时,归一化之后其他的度基本上为0了,所以采用对数轴进行绘制。
以msn交流为例:
在这里插入图片描述
在这里插入图片描述
但是这种统计方式有一个缺陷,当某一个度的数量非常大时,归一化之后其他的度基本上为0了,所以采用对数轴进行绘制。
以msn交流为例:

2.2 Clustering coefficient

在这里插入图片描述

2.3 Components size

不同组大小的个数统计。包含节点数最多的一个组是21082*10^8,其中有大约10610^6个孤立点。
在这里插入图片描述

3. 最简单的一种图模型——随机图模型

3.1 生成随机图

在这种模型中,两个节点之间的连接方式都满足独立同分布的概率pp。所以,即使给定了节点数量以及连接的概率,每次生成图的样子都是不一样的。

相当于拿着硬币抛,来决定两个节点之间是否相连。

在这里插入图片描述
另外,对于这样的图,有更一般的表示方法,Gn,mG_{n,m}中,nn表示节点数目,mm表示mm条边。

对于这样的图,我们如何采用上述提到的四个方法进行度量呢?

3.2 随机图

3.2.1 随机图的Degree Distribution

考虑这样的情况,从nn个节点中选中其中一个节点作为研究点,那么,至多有n1n-1个节点与之相连。在这n1n-1个节点中,找出kk个与之相连的组合为(n1k)\binom{n-1}{k},那么,kk个节点都与之相连的概率为pkp^k,剩下的n1kn-1-k个节点不与之相连的概率为(1p)n1k(1-p)^{n-1-k}

故而p(k)p(k)的意义为:在有nn个节点的情况下,有kk个节点与其中某一节点相连的概率。

通常情况下,二项分布的期望方差分别为:p(n1)p(n-1)p(1p)(n1)p(1-p)(n-1)
在这里插入图片描述
但是,当这个无限大的时候,会出现什么情况呢?

方差除以均值的意义为:
在这里插入图片描述
随着图size的增加(无限大),变异系数表现为趋近于0。这说明,随着节点数的增加,the degree distribution 会变得越来越窄。在这样的情况下,我们认为节点的度数接近于kk的值,也就是说,可以认为所有节点都拥有相同的度

在这里插入图片描述

结论:随着节点数的增加,变异系数趋近于0,节点的度数可近似认为是k。

3.2.2 cluster coefficient

在随机图中,每一条边都符合独立同分布,故而,相连的kk个节点中,任意2个相连节点共有:(k2)\binom{k}{2}可能。所以,期望为p(k2)p\binom{k}{2},代入到clustering coefficient公式中为:E[C]=2E[ei]ki[ki1]=pE[C]=\frac{2E[e_i]}{k_i[k_i-1]}=p

又因:kˉ=p(n1)\bar{k}=p(n-1)

故:p=kˉn1p=\frac{\bar{k}}{n-1}

E[C]E[C]所代表的意义为:在一个图模型中,当度的期望保持不变时,随着图中节点数的增加,其对应边的数量也在增加,聚合系数的期望趋近于0.

在这里插入图片描述

3.2.3 path

在本节中,首先要定义一个东西:expension α\alpha
定义:expension α\alpha是指,若图GG拥有VV个顶点和EE条边,且SS是集合VV中任意一个子集合,则原图模型中,连接到SS边的数量,SS个节点中边的数量和VV剩下节点边数量最小值之比,在这些比例中,选出一个最小的,称为expension

通俗的说就是:我要从图中拿一些节点出来,需要剪断的边的数量。

在这里插入图片描述
换句话说,当我们从S为一个点的时候,min(|S|,|V \ S|)应该为1而不是n-1
在这里插入图片描述

  • 第一张图中,expension为1/51/5,选择5个节点时,只要断一条边就能够使其完全分离。

在这里插入图片描述

随着P的变化,图component的变化情况。
在这里插入图片描述
MSN网络与随机图的差别:
在这里插入图片描述
最后得到的结论:随机图是一个错误的模型,但是它能够为我们研究图提供一些思路。
在这里插入图片描述

参考文献

课程链接

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章