natch常用的幾個類

抓取目錄分析

一共生成5個文件夾,分別是:

l         crawldb目錄存放下載的URL,以及下載的日期,用來頁面更新檢查時間.

l         linkdb目錄存放URL的互聯關係,是下載完成後分析得到的.

l         segments:存放抓取的頁面,下面子目錄的個數於獲取的頁面層數有關係,通常每一層頁面會獨立存放一個子目錄,子目錄名稱爲時間,便於管理.比如我這隻抓取了一層頁面就只生成了20090508173137目錄.每個子目錄裏又有6個子文件夾如下:

Ø         content:每個下載頁面的內容。

Ø         crawl_fetch:每個下載URL的狀態。

Ø         crawl_generate:待下載URL集合。

Ø         crawl_parse:包含來更新crawldb的外部鏈接庫。

Ø         parse_data:包含每個URL解析出的外部鏈接和元數據

Ø         parse_text:包含每個解析過的URL的文本內容。

l         indexs:存放每次下載的獨立索引目錄

l         index:符合Lucene格式的索引目錄,是indexs裏所有index合併後的完整索引
1.2 Crawl過程概述

引用到的類主要有以下9個:

1、  nutch.crawl.Inject

用來給抓取數據庫添加URL的插入器

2、  nutch.crawl.Generator

用來生成待下載任務列表的生成器

3、  nutch.fetcher.Fetcher

完成抓取特定頁面的抓取器

4、  nutch.parse.ParseSegment

負責內容提取和對下級URL提取的內容進行解析的解析器

5、  nutch.crawl.CrawlDb

負責數據庫管理的數據庫管理工具

6、  nutch.crawl.LinkDb

負責鏈接管理

7、  nutch.indexer.Indexer

負責創建索引的索引器

8、  nutch.indexer.DeleteDuplicates

刪除重複數據

9、  nutch.indexer.IndexMerger

對當前下載內容局部索引和歷史索引進行合併的索引合併器
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章