PageRank
核心思想
PageRank算法
PageRank算法總的來說就是預先給每個網頁一個PR值(下面用PR值指代PageRank值),由於PR值物理意義上爲一個網頁被訪問概率,所以一般是,其中N爲網頁總數。另外,一般情況下,所有網頁的PR值的總和爲1。如果不爲1的話也不是不行,最後算出來的不同網頁之間PR值的大小關係仍然是正確的,只是不能直接地反映概率了。
所以PageRank算法實際上就是預先給定PR值後,通過每個網頁之間的鏈接關係不斷迭代,直至達到平穩分佈爲止。
各個網頁的PR值之間的關係一般情況下表示爲如下的式子:
其中是所有對網頁有出鏈的網頁集合;是網頁的出鏈數目;是網頁總數;是阻尼係數,即用戶離開當前網頁重新輸入網址訪問的概率,一般取0.85。
根據這一關係不斷迭代,當算法收斂的時候,得到的PR值即使每個網頁的PR排序值。