Focused crawling: a new approach to topic specific web resource discovery

論文地址: https://courses.cs.washington.edu/courses/cse454/05sp/papers/chakrabarti99focused.pdf

這是一篇非常詳細的論文,成於1999年,關於主題爬蟲引用數最高(高達2294次)的論文.

其具體做法是: 對種子url進行分類,其分類體系是樹狀的,並確保所有種子url都被分在葉子類目上,並訓練出分類模型(論文中詳細解釋爲什麼要主題分類,而不是直接二分類)

然後由這些種子url出發開始抓取,有兩種抓取模式: (1)hard focus模式: 抓取的分類預測後屬於目標葉子類目的祖先類目也算相關,頁面上的鏈接繼續抓取, 如果不屬於,那麼頁面上的鏈接就不繼續抓取了 (2)soft focus模式: 屬於目標網頁的概率作爲該頁面上所有鏈接的優先級,每次都按優先級順序去抓取網頁(我個人比較傾向使用soft focus模式).

抓取一段時間之後就有一個web graph了, 所以就間歇性地通過web graph挖掘hub頁面,挖掘hub頁是通過運行hits算法.這裏的hits算法和原始的hits不一樣, 它的圖是有向、邊權重不對稱的, 具體而言: 邊u->v的權重爲v爲目標網頁的概率,爲了挖掘高質量的hub頁,還要按分類概率閾值去除一些邊.論文裏這一功能組件叫distiller(蒸餾器).但論文這裏,沒有分析和比較爲什麼帶權重更好,二者效果對比如何,有點遺憾.

他們是通過java applet + berkeley db實現的.

評估發現,相關頁面的有效抓取率都能保持在50%以上,對多個topic使用不交疊的種子url,抓取3000條之後url交疊率保持在60~90%, 服務器、網站交疊率也同樣如此,證明這一做法有較強的魯棒性.

文中還有一個觀察,發現的最優100個url,對於cycling主題而言,到種子頁的距離從2到10相對比較均勻,mutal funds到種子頁的距離則集中在10左右(因爲hub頁多數距離在8~9),證明騎行社區更有包容性、更具社交性.

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章