原创 開發基於 Nutch 的集羣式搜索引擎

本文首先介紹 Nutch 的背景知識,包括 Nutch 架構,爬蟲和搜索器。然後以開發一個基於 Nutch 的實際應用爲例向讀者展示如何使用 Nutch 開發自己的搜索引擎。在該示例中,首先帶領讀者開發一個作爲 Nutch 爬蟲抓取的

原创 nutch全網爬行的底層命令

最近在研究nutch,找到了關於使用底層命令進行全網爬行的資料。  首先獲得網址集,使用http://rdf.dmoz.org/rdf/ 目錄下的content.example.txt 文件做測試,建立文件夾dmoz  命令:bin/n

原创 nutch 1.2 增量爬取url 完成 recrawl.sh 編寫

# 使用說明:在bin目錄下建立 runbot.sh ,如果在window下執行的話,則使用 cygwin 來模擬使用 # bin/runbot.sh # runbot script to run the Nutch bot for cr

原创 模板抽取思路的分析

今天看到一篇文章,關於頁面轉化成xml的方式,突然想到nutch的模板匹配問題,因爲第一個頁面,寫匹配方式,及寫一些與此同時過濾真的很沒有效率,所以我打算,擴展nutch的htmlParser這個插件,把nutch只當作一個爬蟲,而索引這

原创 nutch-1.0 的分佈式查詢部署

nutch -1.0 的分佈式 查詢部署     nutch-1.0集成了hadoop的mapreduce 實現分佈式爬蟲方式,抓取的網頁及索引等都存放在HDFS上,但hdfs 用於查詢是不切實際的,所以建議copy到本地 之後做搜索 查

原创 nutch1.2 修改jsp頁面後,想打包部署到tomcat中,有幾個地方需要修改的。

    nutch1.2 修改jsp頁面後,想打包部署到tomcat中,有幾個地方需要修改的。       其中一個地方,當然是搜索的索引路徑了.    nutch-site.xml      <property>         <n

原创 nutch 1.2 從eclipse 打war包到tomcat 需要修改的地方

    nutch1.2 修改jsp頁面後,想打包部署到tomcat中,有幾個地方需要修改的。       其中一個地方,當然是搜索的索引路徑了.    nutch-site.xml      <property>         <na

原创 nutch 1.2 分頁處理

<%@ page session="false" contentType="text/html; charset=UTF-8"     pageEncoding="UTF-8" import="java.io.*" import="ja

原创 nutch 1.2 分頁處理

<%@ page session="false" contentType="text/html; charset=UTF-8"     pageEncoding="UTF-8" import="java.io.*" import="jav

原创 nutch 1.2 war的二次開發 第一步,重新編寫首頁

    nutch的首頁,比較難看,實現了一些基本頁面,像baidu一樣。你如果像對它進行二次開發的話,你就得讀一下源碼了,然後進行build.xml 重新打包在tomcat裏發佈了,當然。這裏我已經對它進行了讀寫哈。       nut

原创 關於nutch1.0二次開發需要更改的東西

二次開發的時候,需要重點對Nutch的界面及界面顯示數據進行適當的調整。 目前據我瞭解到的要修改的地方有以下幾點: 1。搜索頁面頁頭頁尾log修改、選項卡亂碼顯示問題。 2。顯示查詢結果行   添加查詢用時 3。查詢結果摘要長度修

原创 nutch的一些讀取命令

最近在研究nutch,整理了一下關於讀取資源數據的命令。 1.查看crawldb數據庫:bin/nutch readdb url/crawldb/ -stats     這個命令可以查看url地址總數和它的狀態及評分。  查看每個url地

原创 問讀nutch 1.2 解析html的插件 HtmlParser插件

分爲以下幾個部分:   1 解析成Dom 通過sax, DocumentFragment root; //把網頁內容content轉化byte byte[] contentInOctets = content.getContent();

原创 專注成就未來

   曾幾何時,我喜歡上了搜索,搜索給人很神祕的感覺,研究它已經有半年多了,但是還沒有什麼成就。我是一個電子商務開發人員,開發了不少電子商務平臺,有類似於taobao那樣的C2C交易平臺,資金管理平臺,等等。但平時沒事的時候我還是喜歡研究

原创 Nutch1.2增加插件例子

今嘗試下給nutch1.2增加一個插件,於是到官網找了個例子,鏈接如下: http://wiki.apache.org/nutch/WritingPluginExample-0.9 這個例子實現的的是推薦網站,就是寫關鍵字在conten