數據挖掘十大經典算法(6) PageRank

PageRank是Google算法的重要內容。2001年9月被授予美國專利,專利人是Google創始人之一拉里·佩奇(Larry Page)。因此,PageRank裏的page不是指網頁,而是指佩奇,即這個等級方法是以佩奇來命名的。
  Google的 PageRank根據網站的外部鏈接和內部鏈接的數量和質量倆衡量網站的價值。PageRank背後的概念是,每個到頁面的鏈接都是對該頁面的一次投票, 被鏈接的越多,就意味着被其他網站投票越多。這個就是所謂的“鏈接流行度”——衡量多少人願意將他們的網站和你的網站掛鉤。PageRank這個概念引自 學術中一篇論文的被引述的頻度——即被別人引述的次數越多,一般判斷這篇論文的權威性就越高。
  Google有一套自動化方法來計算這些投票。Google的PageRank分值從0到 10;PageRank爲10表示最佳,但非常少見,類似里氏震級(Richter scale),PageRank級別也不是線性的,而是按照一種指數刻度。這是一種奇特的數學術語,意思是PageRank4不是比PageRank3好 一級——而可能會好6到7倍。因此,一個PageRank5的網頁和PageRank8的網頁之間的差距會比你可能認爲的要大的多。
  PageRank較高的頁面的排名往往要比PageRank較低的頁面高,而這導致了人們對鏈 接的着魔。在整個SEO社區,人們忙於爭奪、交換甚至銷售鏈接,它是過去幾年來人們關注的焦點,以至於Google修改了他的系統,並開始放棄某些類型的 鏈接。比如,被人們廣泛接受的一條規定,來自缺乏內容的“link farm”(鏈接工廠)網站的鏈接將不會提供頁面的PageRank,從PageRank較高的頁面得到鏈接但是內容不相關(比如說某個流行的漫畫書網站 鏈接到一個叉車規範頁面),也不會提供頁面的PageRank。Google選擇降低了PageRank對更新頻率,以便不鼓勵人們不斷的對其進行監測。
  Google PageRank一般一年更新四次,所以剛上線的新網站不可能獲得PR值。你的網站很可能在相當長的時間裏面看不到PR值的變化,特別是一些新的網站。PR值暫時沒有,這不是什麼不好的事情,耐心等待就好了。
  爲您的網站獲取外部鏈接是一件好事,但是無視其他SEO領域的工作而進行急迫的鏈接建設就是浪費時間,要時刻保持一個整體思路並記住以下幾點:
  ·Google的排名算法並不是完全基於外部鏈接的
  ·高PageRank並不能保證Google高排名
  ·PageRank值更新的比較慢,今天看到的PageRank值可能是三個月前的值
  因此我們不鼓勵刻意的去追求PageRank,因爲決定排名的因素可以有上百種。儘管如 此,PageRank還是一個用來了解Google對您的網站頁面如何評價的相當好的指示,建議網站設計者要充分認識PageRank在Google判斷 網站質量中的重要作用,從設計前的考慮到後期網站更新都要給予PageRank足夠的分析,很好的利用。我們要將PageRank看作是一種業餘愛好而不 是一種信仰。
  ---------------------------------------------------------------------------------------------------------------------
  通過對由超過 50,000 萬個變量和 20 億個詞彙組成的方程進行計算,PageRank 能夠對網頁的重要性做出客觀的評價。PageRank 並不計算直接鏈接的數量,而是將從網頁 A 指向網頁 B 的鏈接解釋爲由網頁 A 對網頁 B 所投的一票。這樣,PageRank 會根據網頁 B 所收到的投票數量來評估該頁的重要性。
  此外,PageRank 還會評估每個投票網頁的重要性,因爲某些網頁的投票被認爲具有較高的價值,這樣,它所鏈接的網頁就能獲得較高的價值。重要網頁獲得的 PageRank(網頁排名)較高,從而顯示在搜索結果的頂部。Google 技術使用網上反饋的綜合信息來確定某個網頁的重要性。搜索結果沒有人工干預或操縱,這也是爲什麼 Google 會成爲一個廣受用戶信賴、不受付費排名影響且公正客觀的信息來源。
  ---------------
  其實簡單說就是民主表決。打個比方,假如我們要找李開復博士,有一百個人舉手說自己是李開復。那麼誰是真的呢?也許有好幾個真的,但即使如此誰又是大家真正想找的呢?:-) 如果大家都說在 Google 公司的那個是真的,那麼他就是真的。
  在互聯網上,如果一個網頁被很多其它網頁所鏈接,說明它受到普遍的承認和信賴,那麼它的排名就 高。這就是 Page Rank 的核心思想。 當然 Google 的 Page Rank 算法實際上要複雜得多。比如說,對來自不同網頁的鏈接對待不同,本身網頁排名高的鏈接更可靠,於是給這些鏈接予較大的權重。Page Rank 考慮了這個因素,可是現在問題又來了,計算搜索結果的網頁排名過程中需要用到網頁本身的排名,這不成了先有雞還是先有蛋的問題了嗎?
  Google 的兩個創始人拉里·佩奇 (Larry Page )和謝爾蓋·布林 (Sergey Brin) 把這個問題變成了一個二維矩陣相乘的問題,並且用迭代的方法解決了這個問題。他們先假定所有網頁的排名是相同的,並且根據這個初始值,算出各個網頁的第一 次迭代排名,然後再根據第一次迭代排名算出第二次的排名。他們兩人從理論上證明了不論初始值如何選取,這種算法都保證了網頁排名的估計值能收斂到他們的真 實值。值得一提的事,這種算法是完全沒有任何人工干預的。
  理論問題解決了,又遇到實際問題。因爲互聯網上網頁的數量是巨大的,上面提到的二維矩陣從理論 上講有網頁數目平方之多個元素。如果我們假定有十億個網頁,那麼這個矩陣 就有一百億億個元素。這樣大的矩陣相乘,計算量是非常大的。拉里和謝爾蓋兩人利用稀疏矩陣計算的技巧,大大的簡化了計算量,並實現了這個網頁排名算法。今 天 Google 的工程師把這個算法移植到並行的計算機中,進一步縮短了計算時間,使網頁更新的週期比以前短了許多。
  我來 Google 後,拉里 (Larry) 在和我們幾個新員工座談時,講起他當年和謝爾蓋(Sergey) 是怎麼想到網頁排名算法的。他說:"當時我們覺得整個互聯網就像一張大的圖 (Graph),每個網站就像一個節點,而每個網頁的鏈接就像一個弧。我想,互聯網可以用一個圖或者矩陣描述,我也許可以用這個發現做個博士論文。" 他和謝爾蓋就這樣發明了 Page Rank 的算法。
  網頁排名的高明之處在於它把整個互聯網當作了一個整體對待。它無意識中符合了系統論的觀點。相比之下,以前的信息檢索大多把每一個網頁當作獨立的個體對待,很多人當初只注意了網頁內容和查詢語句的相關性,忽略了網頁之間的關係。
  今天,Google 搜索引擎比最初複雜、完善了許多。但是網頁排名在 Google 所有算法中依然是至關重要的。在學術界, 這個算法被公認爲是文獻檢索中最大的貢獻之一,並且被很多大學引入了信息檢索課程 (Information Retrieval) 的教程。
  如何提高你網頁的 PR 值?
  什麼是PR值呢? PR值全稱爲PageRank,PR是英文Pagerank 的縮寫形式,Pagerank取自Google的創始人LarryPage,它是Google排名運算法則(排名公式)的一部分,Pagerank是 Google對網頁重要性的評估,是Google用來衡量一個網站的好壞的唯一標準。PageRank(網頁級別)是Google用於評測一個網頁“重要 性”的一種方法。在揉合了諸如Title標識和Keywords標識等所有其它因素之後,Google通過PageRank來調整結果,使那些更具“重要 性”的網頁在搜索結果中另網站排名獲得提升,從而提高搜索結果的相關性和質量。 PR值的級別從1到10級,10級爲滿分。PR值越高說明該網頁越受歡迎。Google把自己的網站的PR值定到10,這說明Google這個網站是非常 受歡迎的,也可以說這個網站非常重要。Google大受青睞的另一個原因就是它的網站索引速度。向Google提交你的網站直到爲Google收錄,一般 只需兩個星期。如果你的網站已經爲Google收錄,那麼通常Google會每月一次遍歷和更新(重新索引)你的網站信息。不過對於那些PR值 (Pagerank)較高的網站,Google索引週期會相應的短一些。一個PR值爲1的網站表明這個網站不太具有流行度,而PR值爲7到10則表明這個 網站非常受歡迎。PR值最高爲10,一般PR值達到4,就算是一個不錯的網站了。那麼PR值都受那些因素影響呢?下面我們一起來看看。
  第一:網站外部鏈接的數量和質量
  在計算網站排名時,Pagerank會將網站的外部鏈接數考慮進去。並不能說一個網站的外部鏈 接數越多其PR值就越高,如果這樣的話,一個網站儘可能獲得最多的外部鏈接就OK了,有這種想法是錯誤的。Google對一個網站上的外部鏈接數的重視程 度並不意味着你因此可以不求策略地與任何網站建立連接。這是因爲Google並不是簡單地由計算網站的外部鏈接數來決定其等級。Google的 Pagerank系統不單考慮一個網站的外部鏈接質量,也會考慮其數量。這個問題看來很有複雜。首先讓我們來解釋一下什麼是阻尼因數(damping factor)。阻尼因素就是當你投票或鏈接到另外一個站點時所獲得的實際PR分值。阻尼因數一般是0.85。當然比起你網站的實際PR值,它就顯得微不 足道了。
  現在讓我們來看看這個PR分值的計算公式:PR(A)=(1- d)+d(PR(t1)/C(t1)+...+PR(tn)/C(tn)) 公式解釋:其中PR(A)表示的是從一個外部鏈接站點t1上,依據Pagerank?系統給你的網站所增加的PR分值;PR(t1)表示該外部鏈接網站本 身的PR分值;C(t1)則表示該外部鏈接站點所擁有的外部鏈接數量。大家要謹記:一個網站的投票權值只有該網站PR分值的0.85,
  那麼,是不是說對一個網站而言,它所擁有的較高網站質量和較高PR分值的外部鏈接數量越多就越 好呢?錯,因爲-Google的Pagerank系統不單考慮一個網站的外部鏈接質量,也會考慮其數量.比方說,對一個有一定PR值的網站X來說,如果你 的網站Y是它的唯一一個外部鏈接,那麼Google就相信網站X將你的網站Y視做它最好的一個外部鏈接,從而會給你的網站Y更多的分值。可是,如果網站X 上已經有49個外部鏈接,那麼Google就相信網站X只是將你的網站視做它第50個好的網站。因而你的外部鏈接站點上的外部鏈接數越多,你所能夠得到的 PR分值反而會越低,它們呈反比關係。
  說它對是因爲-一般情況下,一個PR分值大於等於6的外部鏈接站點,可顯著提升你的PR分值。 但如果這個外部鏈接站點已經有100個其它的外部鏈接時,那你能夠得到的PR分值就幾乎爲零了。同樣,如果一個外部鏈接站點的PR值僅爲2,但你卻是它的 唯一一個外部鏈接,那麼你所獲得的PR值要遠遠大於那個PR值爲6,外部鏈接數爲100的網站。
  而且這個0.85的權值平均分配給其鏈接的每個外部網站。
  第二:Google在你的網站抓取的頁面數
  Google在你的網站抓取的頁面數,數目越多,Pagerank值越高。但通常Google 並不會主動抓取你的網站的所有頁面,尤其是網址裏帶有“?”的動態鏈接,Google不主動,那就要我們主動了,最笨的辦法是把網站所有的頁面都提交給 Google,但我想沒有誰真會這麼做,但頁面不多的話可以試試。更好的辦法是製作一個靜態Html頁面,通常被稱作“網站地圖”或“網站導航”,它裏面 包含你要添加的所有網址,然後把這個靜態頁面提交給Google。
  第三:網站被世界三大知名網站 DMOZ,Yahoo和Looksmart 收錄
  衆所周知,Google的Pagerank系統對那些門戶網絡目錄如DMOZ,Yahoo和 Looksmart尤爲器重。特別是對DMOZ。一個網站上的DMOZ鏈接對Google的Pagerank?來說,就好像一塊金子一樣珍貴。如果你的網 站爲ODP收錄,則可有效提升你的頁面等級。向ODP提交你的站點併爲它收錄,其實並不是一件難事,只是要多花點時間而已。只要確保你的網站提供了良好的 內容,然後在ODP合適的目錄下點擊"增加站點",按照提示一步步來就OK了。至少要保證你的索引頁(INDEX PAGE)被收錄進去。所以,如果你的網站內容涉及完全不同的幾塊內容,你可以把每個內容的網頁分別向ODP提交-不過請記住"欲速則不達"。等到 Google對其目錄更新後,你就能看到你的PR值會有什麼變化了。如果你的網站爲Yahoo和Looksmart所收錄,那麼你的PR值會得到顯著提 升。如果你的網站是非商業性質的或幾乎完全是非商業性質的內容,那麼你可以通過zeall.com使你的網站爲著名的網絡目錄Looksmart所收錄。 Looksmart也是從Zeal網絡目錄獲得非商業搜索列表。
  Google PR值的更新週期是多長時間?
  一般情況下PR值更新的週期是2.5~3個月!最近一次PR更新是2008年1月中旬。
  PageRank相關算法總結:
  1.PageRank
  基本思想:如果網頁T存在一個指向網頁A的連接,則表明T的所有者認爲A比較重要,從而把T的一部分重要性得分賦予A。這個重要性得分值爲:PR(T)/C(T)
  其中PR(T)爲T的PageRank值,C(T)爲T的出鏈數,則A的PageRank值爲一系列類似於T的頁面重要性得分值的累加。
  優點:是一個與查詢無關的靜態算法,所有網頁的PageRank值通過離線計算獲得;有效減少在線查詢時的計算量,極大降低了查詢響應時間。
  不足:人們的查詢具有主題特徵,PageRank忽略了主題相關性,導致結果的相關性和主題性降低;另外,PageRank有很嚴重的對新網頁的歧視。
  2.Topic-Sensitive PageRank(主題敏感的PageRank)
  基本思想:針對PageRank對主題的忽略而提出。核心思想:通過離線計算出一個 PageRank向量集合,該集合中的每一個向量與某一主題相關,即計算某個頁面關於不同主題的得分。主要分爲兩個階段:主題相關的PageRank向量 集合的計算和在線查詢時主題的確定。
  優點:根據用戶的查詢請求和相關上下文判斷用戶查詢相關的主題(用戶的興趣)返回查詢結果準確性高。
  不足:沒有利用主題的相關性來提高鏈接得分的準確性。
  3.Hilltop
  基本思想:與PageRank的不同之處:僅考慮專家頁面的鏈接。主要包括兩個步驟:專家頁面搜索和目標頁面排序。
  優點:相關性強,結果準確。
  不足:專家頁面的搜索和確定對算法起關鍵作用,專家頁面的質量決定了算法的準確性,而專家頁面 的質量和公平性難以保證;忽略了大量非專家頁面的影響,不能反應整個Internet的民意;當沒有足夠的專家頁面存在時,返回空,所以Hilltop適 合對於查詢排序進行求精。
  那麼影響google PageRank的因素有哪些呢?
  1 與pr高的網站做鏈接:
  2 內容質量高的網站鏈接
  3加入搜索引擎分類目錄
  4 加入免費開源目錄
  5 你的鏈接出現在流量大、知名度高、頻繁更新的重要網站上
  6google對DPF格式的文件比較看重。
  7安裝Google工具條
  8域名和tilte標題出現關鍵詞與meta標籤等
  9反向連接數量和反向連接的等級
  10Google抓取您網站的頁面數量
  11導出鏈接數量
  PageRank科學排名遏止關鍵字垃圾
  目前,五花八門的網站爲爭奪網上排名採用惡意點擊和輸入關鍵字垃圾的手段來吸引網民的眼球,無論對於互聯網企業還是互聯網用戶,這都不是一個好現象。
  爲了解決這樣的問題,Google 創始人之一拉里.佩奇(Larry Page)發明了一種算法PageRank,是由搜索引擎根據網頁之間相互的超鏈接進行計算的網頁排名。它經常和搜索引擎優化有關。PageRank 系統目前被Google 用來體現網頁的相關性和重要性,以便科學排名,遏止關鍵字垃圾。
  PageRank這個概念引自一篇學術論文的被媒體轉載的頻度,一般被轉載的次數越多,這篇論文的權威性就越高,價值也就越高。PageRank是1998年在斯坦福大學問世的,2001
  年9 月被授予美國專利。如今它在 Google 所有算法中依然是至關重要的。在學術界, 這個算法被公認爲是文獻檢索中最大的貢獻之一,並且被很多大學引入了信息檢索課程(Information Retrieval) 的教程。
  PageRank 通過對由超過 5 億個變量和 20 億個詞彙組成的方程進行計算,能科學公正地標識網頁的等級或重要性。PR級別爲1到10,PR值越高說明該網頁越重要。例如:一個PR 值爲1 的網站表明這個網站不太具有流行度,而PR 值爲7到10則表明這個網站極其重要。PageRank級別不是一般的算術級數,而是按照一種幾何級數來劃分的。PageRank3 不是比PageRank2 好一級,而可能會好到數倍。
  PageRank根據網站的外部鏈接和內部鏈接的數量和質量來衡量網站的價值。 PageRank的概念是,每個到頁面的鏈接都是對該頁面的一次投票,被鏈接得越多,就意味着被其他網站投票越多。Google 有一套自動化方法來計算這些投票,但Google 的排名算法不完全基於外部鏈接。PageRank 對來自不同網頁的鏈接會區別對待,來自網頁本身排名高的鏈接更受青睞,給這些鏈接有較大的權重。
  同時,Google 不只是看一個網站的投票數量,或者這個網站的外部鏈接數量。它會對那些投票的網站進行分析。如果這些網站的PR 值比較高,則其投票的網站可從中受益。因此,Google 的技術專家提醒人們,在建設網站的外部鏈接時,應儘可能瞄準那些PR 值高且外部鏈接數又少的網站。這樣的外部鏈接站點越多,你的PR 值就會越高,從而使得你的Google 排名得到顯著提升。
  PageRank的另一作用是對關鍵字垃圾起到巨大的遏制作用。眼下,一些垃圾網站爲了提高點擊率,用一些與站點內容無關的關鍵字垃圾壯聲威,比如用明星的名字、用公共突
  發事件稱謂等。這些網頁的目的或是爲了騙取廣告點擊,或是爲了傳播病毒。還有一些無賴式的博客評論也從中攪局,在網上招搖過市,騙取網民的注意力,這也被網絡技術人員
  視爲垃圾。
  PageRank目前使用一種基於信任和名譽的算法幫助遏止關鍵字垃圾,它忽視這些關鍵字垃圾的存在,以網頁相互鏈接評級別論高低。Google 排名之所以大受追捧,是由於它並非
  只使用關鍵字或代理搜索技術, 而是將自身建立在高級的網頁級別技術基礎之上。 別的搜索引擎提供給搜索者的是多種渠道值爲 8 的網站信息得來的一個粗略的搜索結果,而Google 提供給它的搜索者的則是它自己產生的高度精確的搜索結果。這就是爲什麼網站管理員會千方百計去提高自己網站在Google 的排名了。
  PageRank一般一年更新四次,所以剛上線的新網站不可能獲得PR 值。不過PR 值暫時沒有,並不是什麼不好的事情,耐心等待就能得到Google 的青睞。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章