原创 Nutch 1.3 學習筆記 6 ParseSegment

Nutch 1.3 學習筆記 6 ParseSegment ----------------------------------- 1. bin/n

原创 Lucene 3.3 學習筆記 1 介紹

Lucene 3.3 學習筆記 1 Lucene 3.3 學習筆記 1 包架構 ------------------------1. Lucene介

原创 Nutch 1.3 學習筆記 8 LinkDb

Nutch 1.3 學習筆記 8 LinkDb ---------------------------- 這裏主要是分析一下org.apache.n

原创 Nutch 1.3 學習筆記 4 Generate

Nutch 1.3 學習筆記 4 Generate ------------------------------1. Generate的作用    

原创 Nutch 1.3 學習筆記1

Nutch 1.3 學習筆記1 --------------------1. Nutch是什麼? Nutch是一個開源的網頁抓取工具,主要用於收集網

原创 Nutch 1.3 學習筆記3-1 Inject CrawlDB Reader

Nutch 1.3 學習筆記3-1 Inject CrawlDB Reader ----------------------------------

原创 Facebook Scribe介紹

  Facebook Scribe介紹 ------------------- 1. 介紹             Scribe是Facebook一個開源的實時分佈式日誌收集系統。它提高了大規模日誌收集的可靠性和可擴展性。你可以在不同的節

原创 MongoDB: 一個簡單的配置兩個shared的例子

  MongoDB: 一個簡單的配置兩個shared的例子   下面這個例子開啓了兩個shared服務,一個配置服務,一個mongos服務,所有這些服務都在同一臺服務器上進行測試,當然也可以放在不同的服務器上。   1. 創建Shards

原创 MapReduce程式如何調用第三方和本地庫

MapReduce程式調用第三方包和本地庫 -------------------------問題: 在MP程式中如何在不同的TaskTracker

原创 MongoDB之Hadoop驅動介紹

MongoDB之Hadoop驅動介紹------------------------1. 一些概念 Hadoop是一套Apache開源的分佈式計算框架,其中包括了分佈式文件系統DFS與分佈式計算模型MapReduce,而MongoDB是一

原创 MongoDB之bson的介紹

  MongoDB之bson的介紹   1. 什麼是bson BSON是一種類json的一種二進制形式的存儲格式,簡稱Binary JSON,它和JSON一樣,支持內嵌的文檔對象和數組對象,但是BSON有JSON沒有的一些數據類型,如D

原创 Nutch 1.3 學習筆記 5-1 FetchThread

Nutch 1.3 學習筆記 5-1 FetchThread -----------------------------------上一節看了Fet

原创 Nutch 1.3 學習筆記 7 CrawlDb - updatedb

Nutch 1.3 學習筆記 7 CrawlDb - updatedb ------------------------------ 這裏主要看一下

原创 Nutch 1.3 學習筆記3 - Inject

Nutch 1.3 學習筆記 - Inject ----------------------------1. Inject是幹嘛的? 在Nutch中Inject是用來把文本格式的url列表注入到抓取數據庫中,一般是用來引導系統的初始化

原创 Nutch 1.3 學習筆記 9 SolrIndexer

Nutch 1.3 學習筆記 9 SolrIndexer ---------------------------------- 新的Nutch使用了