Nutch 學習筆記
我的jdk 是1.5.x ,Tomcat是5.0.x
1 下載0.7.2 版本的包:裏面已經包含了war文件,所以不需要Ant編譯了
2 安裝Cygwin,這個沒什麼好說的。
3 把Nutch借壓縮到D:/nutch
4 在D:/nutch下面建立一個文件 urls (沒有後綴)
5 在D:/nutch/conf/crawl-urlfilter.txt裏面,加入
+^http://wwwybu.edu.cn/
6 環境變量加入
NUTCH_JAVA_HOME = D:/jdk1.5.0_06
7 打開cygwin窗口,
cd D:/nutch
在D:/nutch下面執行
bin/nutch crawl urls -dir crawled -depth 3 >& crawl.log
這個命令會在當前目錄下建立一個crawled的文件夾,然後對剛纔的的網站開始檢索。
層數是3層,一般最好10層。然後結果輸出在crawl.log裏面
8 將nutch-0.7.2.war拷貝到tomcat/webapps下面,改名nutch
9 在D:/tomcat/conf/Catalina/localhost/ 建立nutch.xml
10 啓動tomcat,等war解開以後,打開
D:/tomcat/webapps/nutch/WEB-INF/classes/nutch-site.xml
Context configuration file for the Tomcat Manager Web App
$Id: manager.xml 303123 2004-08-26 17:03:35Z remm $
-->
<Context docBase="${catalina.home}/webapps/nutch"
privileged="true" antiResourceLocking="false" antiJARLocking="false">
</Context>
修改如下
searcher.dir
D:/nutch/crawled/
11 D:/tomcat/webapps/nutch/zh/include 下面新建header.jsp,內容就是複製header.html,但是
前面加上
contentType="text/html; charset=UTF-8"
pageEncoding="UTF-8"
%>
在D:/tomcat/webapps/nutch/search.jsp裏面,找到並修改爲
"/>
順便把下面js註釋掉
function queryfocus() {
//search.query.focus();
}
12 D:/tomcat/conf/server.xml 找到以下段,並修改
enableLookups="false" redirectPort="8443" acceptCount="100"
debug="0" connectionTimeout="20000"
disableUploadTimeout="true"
URIEncoding="UTF-8" useBodyEncodingForURI="true" />
了,到此,重啓tomcat,訪問 就可以看到搜索主頁了,而且搜索支持中文
和分詞,雖然分得不是很好。
13 接下來一個重要的功能就是增量更新索引。
在D:/nutch下建立recrawl.sh 。內容爲
# A simple script to run a Nutch re-crawl
if [ -n "$1" ]
then
crawl_dir=$1
else
echo "Usage: recrawl crawl_dir [depth] [adddays]"
exit 1
fi
if [ -n "$2" ]
then
depth=$2
else
depth=5
fi
if [ -n "$3" ]
then
adddays=$3
else
adddays=0
fi
webdb_dir=$crawl_dir/db
segments_dir=$crawl_dir/segments
index_dir=$crawl_dir/index
# The generate/fetch/update cycle
for ((i=1; i <= depth ; i++))
do
bin/nutch generate $webdb_dir $segments_dir -adddays $adddays
segment=`ls -d $segments_dir/* | tail -1`
bin/nutch fetch $segment
bin/nutch updatedb $webdb_dir $segment
done
# Update segments
mkdir tmp
bin/nutch updatesegs $webdb_dir $segments_dir tmp
rm -R tmp
# Index segments
for segment in `ls -d $segments_dir/* | tail -$depth`
do
bin/nutch index $segment
done
# De-duplicate indexes
# "bogus" argument is ignored but needed due to
# a bug in the number of args expected
bin/nutch dedup $segments_dir bogus
# Merge indexes
ls -d $segments_dir/* | xargs bin/nutch merge $index_dir
在cygwin裏面,執行
./recrawl crawled 8
意思是更新索引,目錄是crawled,層數8 。還可以把天數跟在後面。執行完畢後要重啓Tomcat,因爲
Nutch.war裏面對查詢有緩存。
最後可以把這個腳本放到crontab裏面,每天夜裏2點執行,執行完畢後重新啓動Tomcat。