人工智能教程 - 專業選修課程4.3.11 - 複雜結構數據挖掘 5.PageRank技術

PageRank技術

使用PageRank技術可以用來對抗詞項作弊(term spam)。
問題:詞項作弊。是一種欺騙搜索引擎讓其相信一個本來不相關的頁面,使其排名靠前的技術。
解決方案:使用PageRank技術來模擬web衝浪者的行爲,這些衝浪者從隨機頁面出發,每次從當前頁面隨機選擇出鏈前行,該過程可以迭代多次。最終,這些衝浪者會在頁面上匯合。較多衝浪者訪問的網頁重要性被認爲高於那些高於那些較少衝浪者訪問的網頁。
在判斷網頁內容時,不僅考慮網頁上出現的詞項,還考慮指向給網頁的鏈接中或周圍所使用的詞項。

PageRank技術的動機

  1. web用戶會用腳投票
  2. 隨機衝浪者 random surfer的行爲表明web用戶可能訪問那些網頁。用戶更可能訪問有用而不是無用的網頁。類似於隨機遊走

PageRank定義

PageRank是一個函數,它對web中(或者至少是抓取並發現其中鏈接關係的一部分網頁)的每個網頁賦予一個實數值。它的意圖在於,網頁的PageRank越高,那麼它就越“重要”。

TrustRank是面向主題的PageRank
HITS(hyperlink-induced topic search)在查詢處理過程中用於與查詢相關的結果的排序。

Web是一個圖 Graph

作爲有向圖:directed graph
  1. 節點:網頁 Nodes: Webpages
  2. 邊緣:超鏈接 Edges: Hyperlinks

pageRank好處

  • 特定於主題的(個性化的)Personalized PageRank
  • Web垃圾郵件檢測算法

pageRank分數實例

在這裏插入圖片描述

隨機遊走 random walk 的表達

在這裏插入圖片描述

計算pageRank

在這裏插入圖片描述

PageRank存在的問題和解決方案

問題:衡量一個頁面是具有普遍意義的受歡迎程度

  • 針對特定主題存在誤差

  • 解決方案:特定主題的Topic-Specific PageRank

問題:使用單一重要的衡量指標

  • 其他重要模型

  • 解決方案:中心和權限 Hubs-and-Authorities

問題:容易鏈接到欺騙網頁

  • 爲了提升網頁排名,創建人工鏈接拓撲網

  • 解決方案:TrustRank

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章