pagerank

原文鏈接:https://www.jianshu.com/p/e6401638af48

一. Pagerank介紹
PageRank算法以前就是Google的網頁排序算法。PageRank算法,對每個目標網頁進行附上權值,權值大的就靠前顯示,權值小的就靠後顯示。PageRank算法就是給每個網頁附加權值的。PageRank算法借鑑學術界論文重要性的評估方法:誰被引用的次數多,誰就越重要。
注:PageRank算法不單單是按照“被索引數”來給網頁付權值的,用PR值表示每個網頁被PageRank算法附加的權值。

二. PageRank算法的核心細想
(1)如果一個網頁被很多其他網頁鏈接到的話,說明這個網頁比較重要,也就是PageRank值會相對較高
(2)如果一個PageRank值很高的網頁鏈接到一個其他的網頁,那麼被鏈接到的網頁的PageRank值會相應地因此而提高

三. 基本概念
(1)出鏈

如果在網頁A中附加了網頁B的超鏈接B-Link,用戶瀏覽網頁A時可以點擊B-Link然後進入網頁B。上面這種A附有B-Link這種情況表示A出鏈B。可知,網頁A也可以出鏈C,如果A中也附件了網頁C的超鏈接C-Link。

(2)入鏈

上面通過點擊網頁A中B-Link進入B,表示由A入鏈B。如果用戶自己在瀏覽器輸入欄輸入網頁B的URL,然後進入B,表示用戶通過輸入URL入鏈B

(3)無出鏈

如果網頁A中沒有附加其他網頁的超鏈接,則表示A無出鏈

(4)只對自己出鏈

如果網頁A中沒有附件其他網頁的超鏈接,而只有他自己的超鏈接A-Link,則表示A只對自己出鏈

(5)PR值

一個網頁的PR值,概率上理解就是此網頁被訪問的概率,PR值越高其排名越高。

四. 幾種網頁出入鏈關係
case1:網頁都有出入鏈

case1


此種情況下的網頁A的PR值計算公式爲:

 

case2:存在沒有出鏈的網頁

 

case2

 

網頁C是沒有出鏈。因爲C沒有出鏈,所以對A,B,D網頁沒有PR值的貢獻。PageRank算法的策略:從數學上考慮,爲了滿足Markov鏈,設定C對A,B,C,D都有出鏈(也對他自己也出鏈~)。你也可以理解爲:沒有出鏈的網頁,我們強制讓他對所有的網頁都有出鏈,即讓他對所有網頁都有PR值貢獻。
此種情況PR(A)的計算公式:

 

case3:存在只對自己出鏈的網頁

 

case3

 

C是隻對自己出鏈的網頁。

此時訪問C時,不會傻乎乎的停留在C頁面,一直點擊C-Link循環進入C,即C網頁只對自己的網頁PR值有貢獻。正常的做法是,進入C後,存在這種情況:在地址輸入欄輸入A/B/C/D的URL地址,然後跳轉到A/B/C/D進行瀏覽,這就是PageRank算法解決這種情況的策略:設定存在一定概率爲α,用戶在地址欄輸入A/B/C/D地址,然後從C跳轉到A/B/C/D進行瀏覽。
此時PR(A)的計算公式爲:

 

五. 算法公式
一般情況下,一個網頁的PR值計算公式爲:


注:Mpi是有出鏈到pi的所有網頁集合,L(pj)是有網頁pj的出鏈總數,N是網頁總數,α一般取值爲0.85

 

所有網頁PR值一直迭代計算,停止直到下面兩種情況之一發生:每個網頁的PR值前後誤差小於自定義誤差閾值,或者迭代次數超過了自定義的迭代次數閾值

六. PageRank算法的缺點
這是一個天才的算法,原理簡單但效果驚人。然而,PageRank算法還是有一些弊端。

第一,沒有區分站內導航鏈接。很多網站的首頁都有很多對站內其他頁面的鏈接,稱爲站內導航鏈接。這些鏈接與不同網站之間的鏈接相比,肯定是後者更能體現PageRank值的傳遞關係。

第二,沒有過濾廣告鏈接和功能鏈接(例如常見的“分享到微博”)。這些鏈接通常沒有什麼實際價值,前者鏈接到廣告頁面,後者常常鏈接到某個社交網站首頁。

第三,對新網頁不友好。一個新網頁的一般入鏈相對較少,即使它的內容的質量很高,要成爲一個高PR值的頁面仍需要很長時間的推廣。

針對PageRank算法的缺點,有人提出了TrustRank算法。其最初來自於2004年斯坦福大學和雅虎的一項聯合研究,用來檢測垃圾網站。TrustRank算法的工作原理:先人工去識別高質量的頁面(即“種子”頁面),那麼由“種子”頁面指向的頁面也可能是高質量頁面,即其TR值也高,與“種子”頁面的鏈接越遠,頁面的TR值越低。“種子”頁面可選出鏈數較多的網頁,也可選PR值較高的網站。

TrustRank算法給出每個網頁的TR值。將PR值與TR值結合起來,可以更準確地判斷網頁的重要性。

補充:
谷歌用PR值來劃分網頁的等級,有0~10級,一般4級以上的都是比較好的網頁了。谷歌自己PR值爲9,百度也是9,博客園的PR值則爲6。

如今PR值雖不如以前重要了(沒有區分頁面內的導航鏈接、廣告鏈接和功能鏈接導致PR值本身能夠反映出的網頁價值不精確,並且對新網頁不友好),但是流量交易裏PR值還是個很重要的參考因素。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章