- 简介
根据相关性排序,包括内容的相关性,以及内容本身的重要性,要度量页面的重要性的判断标准:某网页被链接的次数以及链接这个网页的网页本身的重要性,被链接次数越多,链接这个网页的网页越重要,说明被链接的网页越重要。
简化模型
PageRank是根据网页之间的连接关系计算网页排名的技术。
PK值:从1到10级,值越大越重要。
简化模型的缺陷:
page leak
page sink
随机浏览模型
随机上网者随机点击一个新页面的概率作为这个新页面的PageRank值。
根据马尔可夫链性质,迭代计算每个结点的PR值,随着迭代次数的增加,PR值将趋于稳定。
- 利用稀疏矩阵简化计算
由于网络中的节点数非常大,因此引入稀疏矩阵来简化计算。 邻接矩阵
用邻接矩阵G表示图,即各结点之间的关系。g(ij)=1表示从i->j有链接存在,反之则表示没有。
因此是一个N*N的矩阵。每一行之和:链出链接数
每一列之和:链入链接数
- 转移概率矩阵