Google Pangrank 算法

網上很多,剛好要用,稍稍整理一下

 

Wiki

 

 

PageRank算法

簡單的

假設一個由4個頁面組成的小團體:AB, C 和 D。如果所有頁面都鏈向A,那麼APR(PageRank)值將是BC 及 D的和。

PR(A) = PR(B) + PR(C) + PR(D)

繼續假設B也有鏈接到C,並且D也有鏈接到包括A的3個頁面。一個頁面不能投票2次。所以B給每個頁面半票。以同樣的邏輯D投出的票只有三分之一算到了A的 PageRank 上。

PR(A)= /frac{PR(B)}{2}+ /frac{PR(C)}{1}+ /frac{PR(D)}{3}

換句話說,根據鏈出總數平分一個頁面的PR值。

PR(A)= /frac{PR(B)}{L(B)}+ /frac{PR(C)}{L(C)}+ /frac{PR(D)}{L(D)}

最後,所有這些被換算爲一個百分比再乘上一個係數q。由於下面的算法,沒有頁面的PageRank會是0。所以,Google通過數學系統給了每個頁面一個最小值1 − q

PR(A)=/left( /frac{PR(B)}{L(B)}+ /frac{PR(C)}{L(C)}+ /frac{PR(D)}{L(D)}+/,/cdots /right) q + 1 - q

所以一個頁面的 PageRank 是由其他頁面的PageRank計算得到。Google 不斷的重複計算每個頁面的 PageRank。如果您給每個頁面一個隨機 PageRank 值(非0),那麼經過不斷的重複計算,這些頁面的 PR 值會趨向於正常和穩定。這就是搜索引擎使用它的原因。

[編輯]完整的

這個方程式引入了隨機瀏覽的概念,即有人上網無聊隨機打開一些頁面,點一些鏈接。一個頁面的PageRank值也影響了它被隨機瀏覽的概率。爲了便於理解,這裏假設上網者不斷點網頁上的鏈接,最終到了一個沒有任何鏈出頁面的網頁,這時候上網者會隨機到另外的網頁開始瀏覽。

爲了對那些有鏈出的頁面公平,q = 0.15(這裏的q被稱爲阻尼係數(damping factor), 其意義是,在任意時刻,假想的隨機瀏覽者停止在某頁面後繼續瀏覽的概率。)的算法被用到了所有頁面上,估算頁面可能被上網者放入書籤的概率。

所以,這個等式如下:

{/rm PageRank}(p_i) = /frac{q}{N} + (1 -q) /sum_{p_j} /frac{{/rm PageRank} (p_j)}{L(p_j)}

p1,p2,...,pN是被研究的頁面,M(pi)是鏈入pi頁面的數量,L(pj)pj鏈出頁面的數量,而N是所有頁面的數量。

PageRank值是一個特殊矩陣中的特徵向量。這個特徵向量爲

/mathbf{R} = /begin{bmatrix} {/rm PageRank}(p_1) // {/rm PageRank}(p_2) // /vdots // {/rm PageRank}(p_N) /end{bmatrix}

R是等式的答案

/mathbf{R} = /begin{bmatrix} {q / N} // {q / N} // /vdots // {q / N} /end{bmatrix} + (1-q) /begin{bmatrix} /ell(p_1,p_1) & /ell(p_1,p_2) & /cdots & /ell(p_1,p_N) // /ell(p_2,p_1) & /ddots & & // /vdots & & /ell(p_i,p_j) & // /ell(p_N,p_1) & & & /ell(p_N,p_N) /end{bmatrix} /mathbf{R}

如果pj不鏈向pi, 而且對每個j都成立時,/ell(p_i,p_j)等於 0

/sum_{i = 1}^N /ell(p_i,p_j) = 1,

這項技術的主要缺點是舊的頁面等級會比新頁面高。因爲即使是非常好的新頁面也不會有很多上游鏈接,除非它是某個站點的子站點。

這就是PageRank需要多項算法結合的原因。PageRank似乎傾向於維基百科頁面,在條目名稱的搜索結果中總在大多數或者其他所有頁面之前。原因主要是維基百科內相互的鏈接很多,並且有很多站點鏈入。

Google經常處罰惡意提高PageRank的行爲,至於其如何區分正常的鏈接交換和不正常的鏈接堆積仍然是商業機密

2009年10月14日,Google員工蘇珊·莫斯科(Susan Moskwa)確認該公司已自其網站管理員工具部分移除 PageRank。她對這部分移除的公告表示:「我們長久以來一直在告誡人們不應該過分注重 PageRank;很多網站站主似乎認爲對他們來說得時時追蹤的網站最重要指標,而這簡直是個誤解。」[2]然而在蘇珊確認後兩天, PageRank 仍舊在Google工具欄上顯示。

 

 

Baidu 百科

 

 

PageRank相關算法:

1.PageRank
  基本思想:如果網頁T存在一個指向網頁A的連接,則表明T的所有者認爲A比較重要,從而把T的一部分重要性得分賦予A。這個重要性得分值爲:PR(T)/C(T)
  其中PR(T)爲T的PageRank值,C(T)爲T的出鏈數,則A的PageRank值爲一系列類似於T的頁面重要性得分值的累加。
  優點:是一個與查詢無關的靜態算法,所有網頁的PageRank值通過離線計算獲得;有效減少在線查詢時的計算量,極大降低了查詢響應時間。
  不足:人們的查詢具有主題特徵,PageRank忽略了主題相關性,導致結果的相關性和主題性降低;另外,PageRank有很嚴重的對新網頁的歧視。
  2.Topic-Sensitive PageRank(主題敏感的PageRank)
  基本思想:針對PageRank對主題的忽略而提出。核心思想:通過離線計算出一個PageRank向量集合,該集合中的每一個向量與某一主題相關,即計算某個頁面關於不同主題的得分。主要分爲兩個階段:主題相關的PageRank向量集合的計算和在線查詢時主題的確定。
  優點:根據用戶的查詢請求和相關上下文判斷用戶查詢相關的主題(用戶的興趣)返回查詢結果準確性高。
  不足:沒有利用主題的相關性來提高鏈接得分的準確性。
  3.Hilltop
  
基本思想:與PageRank的不同之處:僅考慮專家頁面的鏈接。主要包括兩個步驟:專家頁面搜索和目標頁面排序。
  優點:相關性強,結果準確。

  不足:專家頁面的搜索和確定對算法起關鍵作用,專家頁面的質量決定了算法的準確性,而專家頁面的質量和公平性難以保證;忽略了大量非專家頁面的影響,不能反應整個Internet的民意;當沒有足夠的專家頁面存在時,返回空,所以Hilltop適合對於查詢排序進行求精。

 

那麼影響google PageRank的因素有哪些呢?
  1 與pr高的網站做鏈接:
  2 內容質量高的網站鏈接
  3 加入搜索引擎分類目錄
  4 加入免費開源目錄
  5 你的鏈接出現在流量大、知名度高、頻繁更新的重要網站上
  6 google對PDF格式的文件比較看重。
  7 安裝Google工具條
  8 域名和tilte標題出現關鍵詞與meta標籤等
  9 反向連接數量和反向連接的等級
  10 Google抓取您網站的頁面數量
  11 導出鏈接數量

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章