natch常用的幾個類

原創

2020-02-25 20:41

抓取目錄分析

一共生成5個文件夾,分別是:

l         crawldb目錄存放下載的URL,以及下載的日期,用來頁面更新檢查時間.

l         linkdb目錄存放URL的互聯關係,是下載完成後分析得到的.

l         segments:存放抓取的頁面,下面子目錄的個數於獲取的頁面層數有關係,通常每一層頁面會獨立存放一個子目錄,子目錄名稱爲時間,便於管理.比如我這隻抓取了一層頁面就只生成了20090508173137目錄.每個子目錄裏又有6個子文件夾如下:

Ø         content：每個下載頁面的內容。

Ø         crawl_fetch：每個下載URL的狀態。

Ø         crawl_generate：待下載URL集合。

Ø         crawl_parse：包含來更新crawldb的外部鏈接庫。

Ø         parse_data：包含每個URL解析出的外部鏈接和元數據

Ø         parse_text：包含每個解析過的URL的文本內容。

l         indexs：存放每次下載的獨立索引目錄

l         index：符合Lucene格式的索引目錄，是indexs裏所有index合併後的完整索引
1.2 Crawl過程概述

引用到的類主要有以下9個：

1、 nutch.crawl.Inject

用來給抓取數據庫添加URL的插入器

2、 nutch.crawl.Generator

用來生成待下載任務列表的生成器

3、 nutch.fetcher.Fetcher

完成抓取特定頁面的抓取器

4、 nutch.parse.ParseSegment

負責內容提取和對下級URL提取的內容進行解析的解析器

5、 nutch.crawl.CrawlDb

負責數據庫管理的數據庫管理工具

6、 nutch.crawl.LinkDb

負責鏈接管理

7、 nutch.indexer.Indexer

負責創建索引的索引器

8、 nutch.indexer.DeleteDuplicates

刪除重複數據

9、 nutch.indexer.IndexMerger

對當前下載內容局部索引和歷史索引進行合併的索引合併器

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

natch常用的幾個類

MySQL 核心模塊揭祕 | 18 期 | 鎖在內存里長什麼樣*

使用perf工具生成火焰圖

大齡程序員思考

響應式界面控件DevExtreme * 更強的數據分析和可視化功能

HttpSecurity 是如何組裝過濾器鏈的

數說海南——近6年海南各市縣人口簡單看

長序列中Transformers的高級注意力機制總結

WebStorm 創建 Vue 項目

海納百川——人人網海量存儲系統Nuclear開發手記

hadoop-vfs(fuse_dfs)線上問題定位

解讀NoSQL代表Dynamo

對雲計算中幾種基礎設施（Dynamo,Bigtable,Map/Reduce等）的樸素看法

優酷網架構學習筆記

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結