PageRank算法

PageRank算法原理

PageRank的計算充分利用了兩個假設：數量假設和質量假設。步驟如下：
1）在初始階段：網頁通過鏈接關係構建起Web圖，每個頁面設置相同的PageRank值，通過若干輪的計算，會得到每個頁面所獲得的最終PageRank值。隨着每一輪的計算進行，網頁當前的PageRank值會不斷得到更新。

2）在一輪中更新頁面PageRank得分的計算方法：在一輪更新頁面PageRank得分的計算中，每個頁面將其當前的PageRank值平均分配到本頁面包含的出鏈上，這樣每個鏈接即獲得了相應的權值。而每個頁面將所有指向本頁面的入鏈所傳入的權值求和，即可得到新的PageRank得分。當每個頁面都獲得了更新後的PageRank值，就完成了一輪PageRank計算。

(常言道，看一個人怎樣，看他有什麼朋友就知道了。也就是說，一個人有着越多牛X朋友的人，他是牛X的概率就越大。將這個知識遷移到網頁上就是“被越多優質的網頁所指的網頁，它是優質的概率就越大”。

PageRank的核心思想就是上述簡單卻有效的觀點。)

PageRank算法優缺點

優點：

是一個與查詢無關的靜態算法，所有網頁的PageRank值通過離線計算獲得；有效減少在線查詢時的計算量，極大降低了查詢響應時間。

缺點：

人們的查詢具有主題特徵，PageRank忽略了主題相關性，導致結果的相關性和主題性降低
舊的頁面等級會比新頁面高。因爲即使是非常好的新頁面也不會有很多上游鏈接，除非它是某個站點的子站點。
該算法在初期的時候一直都是基於鏈接分析的,而一個網頁上的鏈接包含很多:比如廣告鏈接、功能鏈接、導航鏈接、以及多次重複的無效鏈接等等,這些鏈接都會被該算法計算在pr值傳遞之中,所以不能夠對網頁降噪之後在進行處理

基本思想：

如果網頁T存在一個指向網頁A的連接，則表明T的所有者認爲A比較重要，從而把T的一部分重要性得分賦予A。這個重要性得分值爲：PR（T）/ L(T)

其中PR（T）爲T的PageRank值，L(T)爲T的出鏈數

則A的PageRank值爲一系列類似於T的頁面重要性得分值的累加。

即一個頁面的得票數由所有鏈向它的頁面的重要性來決定，到一個頁面的超鏈接相當於對該頁投一票。一個頁面的PageRank是由所有鏈向它的頁面（鏈入頁面）的重要性經過遞歸算法得到的。一個有較多鏈入的頁面會有較高的等級，相反如果一個頁面沒有任何鏈入頁面，那麼它沒有等級。

3.3 PageRank簡單計算：

假設一個由只有4個頁面組成的集合：A，B，C和D。如果所有頁面都鏈向A，那麼A的PR（PageRank）值將是B，C及D的和。

繼續假設B也有鏈接到C，並且D也有鏈接到包括A的3個頁面。一個頁面不能投票2次。所以B給每個頁面半票。以同樣的邏輯，D投出的票只有三分之一算到了A的PageRank上。

換句話說，根據鏈出總數平分一個頁面的PR值。

如圖1 所示的例子來說明PageRank的具體計算過程。

修正PageRank計算公式：

由於存在一些出鏈爲0，也就是那些不鏈接任何其他網頁的網，也稱爲孤立網頁，使得很多網頁能被訪問到。因此需要對 PageRank公式進行修正，即在簡單公式的基礎上增加了阻尼係數（dampingfactor）q， q一般取值q=0.85。

其意義是，在任意時刻，用戶到達某頁面後並繼續向後瀏覽的概率。 1- q= 0.15就是用戶停止點擊，隨機跳到新URL的概率）的算法被用到了所有頁面上，估算頁面可能被上網者放入書籤的概率。

最後，即所有這些被換算爲一個百分比再乘上一個係數q。由於下面的算法，沒有頁面的PageRank會是0。所以，Google通過數學系統給了每個頁面一個最小值。

所以一個頁面的PageRank是由其他頁面的PageRank計算得到。Google不斷的重複計算每個頁面的PageRank。如果給每個頁面一個隨機PageRank值（非0），那麼經過不斷的重複計算，這些頁面的PR值會趨向於正常和穩定。這就是搜索引擎使用它的原因。

(一個很顯然的結論是，如果連通圖中有一個頂點的入度爲0，則經過有限次迭代之後，該連通圖內的所有頂點的PageRank均爲0，形象的說，這個頂點就像一個黑洞一樣，把整體的PageRank值慢慢地“吸收”了。由於它不對外貢獻任何PR值，所以整體的PR總和是在不斷地減少，直到最終收斂到0。我把它稱之爲：PageRank的“黑洞效應”。至於說Google是如何防止這種情況的發生，畢竟一個網站沒有外鏈是完全有可能的，我也尚未找到確切的答案。不過網上道是有人給出了一種解決辦法：即如果一個網站沒有外鏈，那麼就假定該連通圖內其餘所有的網點都是它的外鏈，這樣我們就避免了整體PageRank值被吸收的現象)