Nutch 0.7.2 學習筆記

Nutch 學習筆記

 


我的jdk 是1.5.x ,Tomcat是5.0.x

1 下載0.7.2 版本的包:裏面已經包含了war文件,所以不需要Ant編譯了

2 安裝Cygwin,這個沒什麼好說的。

3 把Nutch借壓縮到D:/nutch

4 在D:/nutch下面建立一個文件 urls (沒有後綴)

http://www.ybu.edu.cn/

5 在D:/nutch/conf/crawl-urlfilter.txt裏面,加入

+^http://wwwybu.edu.cn/

6 環境變量加入

NUTCH_JAVA_HOME = D:/jdk1.5.0_06

7 打開cygwin窗口,

cd D:/nutch

在D:/nutch下面執行

bin/nutch crawl urls -dir crawled -depth 3 >& crawl.log
這個命令會在當前目錄下建立一個crawled的文件夾,然後對剛纔的的網站開始檢索。
層數是3層,一般最好10層。然後結果輸出在crawl.log裏面
8 將nutch-0.7.2.war拷貝到tomcat/webapps下面,改名nutch
9 在D:/tomcat/conf/Catalina/localhost/ 建立nutch.xml
10 啓動tomcat,等war解開以後,打開
D:/tomcat/webapps/nutch/WEB-INF/classes/nutch-site.xml
<!--

    Context configuration file for the Tomcat Manager Web App

    $Id: manager.xml 303123 2004-08-26 17:03:35Z remm $

-->


<Context docBase="${catalina.home}/webapps/nutch"
         privileged
="true" antiResourceLocking="false" antiJARLocking="false">

  

</Context>
修改如下


    searcher.dir
    D:/nutch/crawled/

11 D:/tomcat/webapps/nutch/zh/include 下面新建header.jsp,內容就是複製header.html,但是
前面加上
  contentType="text/html; charset=UTF-8"
  pageEncoding="UTF-8"
%>
在D:/tomcat/webapps/nutch/search.jsp裏面,找到並修改爲
"/>
順便把下面js註釋掉
function queryfocus() { 
//search.query.focus();
  }
12 D:/tomcat/conf/server.xml 找到以下段,並修改
                 
<maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
               enableLookups
="false" redirectPort="8443" acceptCount="100"
               debug
="0" connectionTimeout="20000" 
               disableUploadTimeout
="true" 
               URIEncoding
="UTF-8" useBodyEncodingForURI="true" />
 
了,到此,重啓tomcat,訪問  就可以看到搜索主頁了,而且搜索支持中文
和分詞,雖然分得不是很好。
13 接下來一個重要的功能就是增量更新索引。
在D:/nutch下建立recrawl.sh 。內容爲
#!/bin/bash

# A simple script to run a Nutch re-crawl

if [ -n "$1" ]
then
  crawl_dir
=$1
else
  
echo "Usage: recrawl crawl_dir [depth] [adddays]"
  
exit 1
fi

if [ -n "$2" ]
then
  depth
=$2
else
  depth
=5
fi

if [ -n "$3" ]
then
  adddays
=$3
else
  adddays
=0
fi

webdb_dir
=$crawl_dir/db
segments_dir
=$crawl_dir/segments
index_dir
=$crawl_dir/index

# The generate/fetch/update cycle
for ((i=1; i <= depth ; i++))
do
  bin
/nutch generate $webdb_dir $segments_dir -adddays $adddays
  segment
=`ls -d $segments_dir/* | tail -1`
  bin
/nutch fetch $segment
  bin
/nutch updatedb $webdb_dir $segment
done

# Update segments
mkdir tmp
bin
/nutch updatesegs $webdb_dir $segments_dir tmp
rm -R tmp

# Index segments
for segment in `ls -d $segments_dir/* | tail -$depth`
do
  bin
/nutch index $segment
done

# De-duplicate indexes
# "bogus" argument is ignored but needed due to
# a bug in the number of args expected
bin
/nutch dedup $segments_dir bogus

# Merge indexes
ls -d 
$segments_dir/* | xargs bin/nutch merge $index_dir

在cygwin裏面,執行
./recrawl crawled 8
意思是更新索引,目錄是crawled,層數8 。還可以把天數跟在後面。執行完畢後要重啓Tomcat,因爲
Nutch.war裏面對查詢有緩存。
 
最後可以把這個腳本放到crontab裏面,每天夜裏2點執行,執行完畢後重新啓動Tomcat。
 
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章