自學數據挖掘十大算法之PageRank

原創

2020-02-21 15:33

PageRank是Google用來衡量一個網站好壞的唯一標準，Google將其分爲0—10級，一般PR值達到4，該網站已經很不錯了，Google將自己的網站等級定爲10。對於某個互聯網網頁A來說，該網頁的PageRank值的計算基於兩個假設：

數量假設

在Web圖模型中，如果一個頁面節點接收到的其他網頁的入鏈數量越多那麼這個網頁越重要。

質量假設

指向頁面A的入鏈質量不同，質量高的頁面會通過鏈接向其他的頁面傳遞更多的權重，所以越是質量高的頁面指向A，則頁面就變得越重要。

PageRank算法與網頁主題無關，即與用戶輸入的查詢無關。

PageRank是基於從許多優質的網頁鏈接過來的網頁必定還是優質的網頁的迴歸關係，來判定所有網頁的重要性。

鏈入鏈接數：單純意義上受歡迎程度指標

鏈入鏈接：是否來自推薦度高的頁面（質量高的頁面），也是有根據的受歡迎指標

鏈入鏈接源頁面的鏈接數：被選中點擊進入瀏覽的機率指標

PR(A)=PR(B)+PR(C)+PR(D)

建立簡化模型：

對於任意網頁Pi它的PR值爲如下，其中Bi爲所有鏈接到網頁i的網頁集合，Lj爲網頁j的對外鏈接數（出度）。

PRi：網頁i的PageRank值

PRj：網頁j的PageRank值

Lj：網頁j的鏈出鏈接數

Bi：鏈接到網頁i的網頁集合

PageRank算法面臨的兩個問題：

Rank Leak，一個獨立的網頁如果沒有外出的鏈接就會產生等級泄露

Rank Sink，整個網頁圖中的一組緊密鏈連成環的網頁如果沒有外出的鏈接就會產生rank sink

上網者以隨機的方式訪問一個新網頁的概率就等於這個網頁的PageRank值，公式如下：

N：網絡中網頁總數

d：阻尼因子，通常取0.85，d即按照超鏈接進行瀏覽的概率

1- d：隨機跳轉一個新網頁的概率

PR(Pi)：網頁Pi的PR值

L(Pj)：Pj的鏈出網頁數目

等式PR=A*PR滿足馬爾可夫鏈的性質，如果馬爾可夫鏈收斂，則PR值存在唯一解，通過迭代計算得到的所有節點的PageRank值，那麼經過不斷地重複計算，這些頁面的PR值會趨於正常和穩定。

時間關係，本文寫的非常簡單，對於PageRank的深入探討請點擊：http://blog.csdn.net/monkey_d_meng/article/details/6556295

參考：

http://blog.csdn.net/hguisu/article/details/7996185

http://zh.wikipedia.org/wiki/PageRank

http://blog.csdn.net/aladdina/article/details/4141120