機器學習:PageRank

PageRank

核心思想

在這裏插入圖片描述

PageRank算法

PageRank算法總的來說就是預先給每個網頁一個PR值(下面用PR值指代PageRank值),由於PR值物理意義上爲一個網頁被訪問概率,所以一般是1N\frac{1}{N},其中N爲網頁總數。另外,一般情況下,所有網頁的PR值的總和爲1。如果不爲1的話也不是不行,最後算出來的不同網頁之間PR值的大小關係仍然是正確的,只是不能直接地反映概率了。

所以PageRank算法實際上就是預先給定PR值後,通過每個網頁之間的鏈接關係不斷迭代,直至達到平穩分佈爲止。

各個網頁的PR值之間的關係一般情況下表示爲如下的式子:

PR(pi)=αpjMpiPR(pj)L(pj)+(1α)N\LARGE PR(p_i)=α\sum_{p_j∈M_{p_i}}\frac{PR(p_j)}{L(p_j)}+\frac{(1-α)}{N}

其中MpiM_{p_i}是所有對pip_i網頁有出鏈的網頁集合;L(pj)L(p_j)是網頁的出鏈數目;NN是網頁總數;αα是阻尼係數,即用戶離開當前網頁重新輸入網址訪問的概率,一般取0.85。

根據這一關係不斷迭代,當算法收斂的時候,得到的PR值即使每個網頁的PR排序值。

隨機遊走

在這裏插入圖片描述

計算舉例

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章