PageRank技術
使用PageRank技術可以用來對抗詞項作弊(term spam)。
問題:詞項作弊。是一種欺騙搜索引擎讓其相信一個本來不相關的頁面,使其排名靠前的技術。
解決方案:使用PageRank技術來模擬web衝浪者的行爲,這些衝浪者從隨機頁面出發,每次從當前頁面隨機選擇出鏈前行,該過程可以迭代多次。最終,這些衝浪者會在頁面上匯合。較多衝浪者訪問的網頁重要性被認爲高於那些高於那些較少衝浪者訪問的網頁。
在判斷網頁內容時,不僅考慮網頁上出現的詞項,還考慮指向給網頁的鏈接中或周圍所使用的詞項。
PageRank技術的動機
PageRank定義
PageRank是一個函數,它對web中(或者至少是抓取並發現其中鏈接關係的一部分網頁)的每個網頁賦予一個實數值。它的意圖在於,網頁的PageRank越高,那麼它就越“重要”。