natch常用的幾個類
抓取目錄分析
一共生成5個文件夾,分別是:
l crawldb目錄存放下載的URL,以及下載的日期,用來頁面更新檢查時間.
l linkdb目錄存放URL的互聯關係,是下載完成後分析得到的.
l segments:存放抓取的頁面,下面子目錄的個數於獲取的頁面層數有關係,通常每一層頁面會獨立存放一個子目錄,子目錄名稱爲時間,便於管理.比如我這隻抓取了一層頁面就只生成了20090508173137目錄.每個子目錄裏又有6個子文件夾如下:
Ø content:每個下載頁面的內容。
Ø crawl_fetch:每個下載URL的狀態。
Ø crawl_generate:待下載URL集合。
Ø crawl_parse:包含來更新crawldb的外部鏈接庫。
Ø parse_data:包含每個URL解析出的外部鏈接和元數據
Ø parse_text:包含每個解析過的URL的文本內容。
l indexs:存放每次下載的獨立索引目錄
l index:符合Lucene格式的索引目錄,是indexs裏所有index合併後的完整索引
1.2 Crawl過程概述
引用到的類主要有以下9個:
1、 nutch.crawl.Inject
用來給抓取數據庫添加URL的插入器
2、 nutch.crawl.Generator
用來生成待下載任務列表的生成器
3、 nutch.fetcher.Fetcher
完成抓取特定頁面的抓取器
4、 nutch.parse.ParseSegment
負責內容提取和對下級URL提取的內容進行解析的解析器
5、 nutch.crawl.CrawlDb
負責數據庫管理的數據庫管理工具
6、 nutch.crawl.LinkDb
負責鏈接管理
7、 nutch.indexer.Indexer
負責創建索引的索引器
8、 nutch.indexer.DeleteDuplicates
刪除重複數據
9、 nutch.indexer.IndexMerger
對當前下載內容局部索引和歷史索引進行合併的索引合併器
一共生成5個文件夾,分別是:
l crawldb目錄存放下載的URL,以及下載的日期,用來頁面更新檢查時間.
l linkdb目錄存放URL的互聯關係,是下載完成後分析得到的.
l segments:存放抓取的頁面,下面子目錄的個數於獲取的頁面層數有關係,通常每一層頁面會獨立存放一個子目錄,子目錄名稱爲時間,便於管理.比如我這隻抓取了一層頁面就只生成了20090508173137目錄.每個子目錄裏又有6個子文件夾如下:
Ø content:每個下載頁面的內容。
Ø crawl_fetch:每個下載URL的狀態。
Ø crawl_generate:待下載URL集合。
Ø crawl_parse:包含來更新crawldb的外部鏈接庫。
Ø parse_data:包含每個URL解析出的外部鏈接和元數據
Ø parse_text:包含每個解析過的URL的文本內容。
l indexs:存放每次下載的獨立索引目錄
l index:符合Lucene格式的索引目錄,是indexs裏所有index合併後的完整索引
1.2 Crawl過程概述
引用到的類主要有以下9個:
1、 nutch.crawl.Inject
用來給抓取數據庫添加URL的插入器
2、 nutch.crawl.Generator
用來生成待下載任務列表的生成器
3、 nutch.fetcher.Fetcher
完成抓取特定頁面的抓取器
4、 nutch.parse.ParseSegment
負責內容提取和對下級URL提取的內容進行解析的解析器
5、 nutch.crawl.CrawlDb
負責數據庫管理的數據庫管理工具
6、 nutch.crawl.LinkDb
負責鏈接管理
7、 nutch.indexer.Indexer
負責創建索引的索引器
8、 nutch.indexer.DeleteDuplicates
刪除重複數據
9、 nutch.indexer.IndexMerger
對當前下載內容局部索引和歷史索引進行合併的索引合併器
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.