原创 Nutch 1.3 學習筆記 6 ParseSegment
Nutch 1.3 學習筆記 6 ParseSegment ----------------------------------- 1. bin/n
原创 Lucene 3.3 學習筆記 1 介紹
Lucene 3.3 學習筆記 1 Lucene 3.3 學習筆記 1 包架構 ------------------------1. Lucene介
原创 Nutch 1.3 學習筆記 8 LinkDb
Nutch 1.3 學習筆記 8 LinkDb ---------------------------- 這裏主要是分析一下org.apache.n
原创 Nutch 1.3 學習筆記 4 Generate
Nutch 1.3 學習筆記 4 Generate ------------------------------1. Generate的作用
原创 Nutch 1.3 學習筆記1
Nutch 1.3 學習筆記1 --------------------1. Nutch是什麼? Nutch是一個開源的網頁抓取工具,主要用於收集網
原创 Nutch 1.3 學習筆記3-1 Inject CrawlDB Reader
Nutch 1.3 學習筆記3-1 Inject CrawlDB Reader ----------------------------------
原创 Facebook Scribe介紹
Facebook Scribe介紹 ------------------- 1. 介紹 Scribe是Facebook一個開源的實時分佈式日誌收集系統。它提高了大規模日誌收集的可靠性和可擴展性。你可以在不同的節
原创 MongoDB: 一個簡單的配置兩個shared的例子
MongoDB: 一個簡單的配置兩個shared的例子 下面這個例子開啓了兩個shared服務,一個配置服務,一個mongos服務,所有這些服務都在同一臺服務器上進行測試,當然也可以放在不同的服務器上。 1. 創建Shards
原创 MapReduce程式如何調用第三方和本地庫
MapReduce程式調用第三方包和本地庫 -------------------------問題: 在MP程式中如何在不同的TaskTracker
原创 MongoDB之Hadoop驅動介紹
MongoDB之Hadoop驅動介紹------------------------1. 一些概念 Hadoop是一套Apache開源的分佈式計算框架,其中包括了分佈式文件系統DFS與分佈式計算模型MapReduce,而MongoDB是一
原创 MongoDB之bson的介紹
MongoDB之bson的介紹 1. 什麼是bson BSON是一種類json的一種二進制形式的存儲格式,簡稱Binary JSON,它和JSON一樣,支持內嵌的文檔對象和數組對象,但是BSON有JSON沒有的一些數據類型,如D
原创 Nutch 1.3 學習筆記 5-1 FetchThread
Nutch 1.3 學習筆記 5-1 FetchThread -----------------------------------上一節看了Fet
原创 Nutch 1.3 學習筆記 7 CrawlDb - updatedb
Nutch 1.3 學習筆記 7 CrawlDb - updatedb ------------------------------ 這裏主要看一下
原创 Nutch 1.3 學習筆記3 - Inject
Nutch 1.3 學習筆記 - Inject ----------------------------1. Inject是幹嘛的? 在Nutch中Inject是用來把文本格式的url列表注入到抓取數據庫中,一般是用來引導系統的初始化
原创 Nutch 1.3 學習筆記 9 SolrIndexer
Nutch 1.3 學習筆記 9 SolrIndexer ---------------------------------- 新的Nutch使用了