聚焦爬蟲的工作原理

聚焦爬蟲的工作流程比較複雜,需要根據一定的網頁分析算法過濾與主題無關的網頁,保存有用的連接並且添加到等待抓取得url對列中,並根據一定的搜索策略從等待隊列中選擇下一步要抓取的連接。重複着一個過程,直到滿足一定條件爲止。

主要解決問題有:對抓取目標的描述和定義。對網頁的分析及過濾,對url的搜索策略。

網頁分析算法:一、基於網絡拓撲結構的算法 分析算法簡單,主題度較低。

1、基於網頁粒度的分析算法:常見的有pagerank及hits算法

2、基於網站粒度的分析算法:siterank

3、網頁塊級的分析算法。

二、基於網頁內容的分析算法

1、基於文本的分析算法

2、對隱藏網頁的分析算法

三、基於用戶協作的網頁分析算法:用戶評價決定搜索次序。

四、基於領域概念的定製網頁評價算法:該算法通過定義領域並進行搜索,克服了最佳有限局部的搜索方法的局部性,提高抓取的準確性 

發佈了34 篇原創文章 · 獲贊 3 · 訪問量 11萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章