Nutch 0.7.2 學習筆記

原創

kauu

2020-02-24 11:50

Nutch 學習筆記

我的jdk 是1.5.x ，Tomcat是5.0.x

1 下載0.7.2 版本的包：裏面已經包含了war文件，所以不需要Ant編譯了

2 安裝Cygwin，這個沒什麼好說的。

3 把Nutch借壓縮到D:/nutch

4 在D:/nutch下面建立一個文件 urls （沒有後綴）

http://www.ybu.edu.cn/

5 在D:/nutch/conf/crawl-urlfilter.txt裏面，加入

+^http://wwwybu.edu.cn/

6 環境變量加入

NUTCH_JAVA_HOME = D:/jdk1.5.0_06

7 打開cygwin窗口，

cd D:/nutch

在D:/nutch下面執行

bin/nutch crawl urls -dir crawled -depth 3 >& crawl.log

這個命令會在當前目錄下建立一個crawled的文件夾，然後對剛纔的的網站開始檢索。

層數是3層，一般最好10層。然後結果輸出在crawl.log裏面

8 將nutch-0.7.2.war拷貝到tomcat/webapps下面，改名nutch

9 在D:/tomcat/conf/Catalina/localhost/ 建立nutch.xml

10 啓動tomcat，等war解開以後，打開

D:/tomcat/webapps/nutch/WEB-INF/classes/nutch-site.xml

<!--

Context configuration file for the Tomcat Manager Web App

$Id: manager.xml 303123 2004-08-26 17:03:35Z remm $

-->

<Context docBase="${catalina.home}/webapps/nutch"

privileged="true" antiResourceLocking="false" antiJARLocking="false">

</Context>

修改如下



    searcher.dir
    D:/nutch/crawled/

11 D:/tomcat/webapps/nutch/zh/include 下面新建header.jsp，內容就是複製header.html，但是

前面加上

  contentType="text/html; charset=UTF-8"
  pageEncoding="UTF-8"
%>

在D:/tomcat/webapps/nutch/search.jsp裏面，找到並修改爲

"/>

順便把下面js註釋掉

function queryfocus() {

//search.query.focus();
  }

12 D:/tomcat/conf/server.xml 找到以下段，並修改

<maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
               enableLookups="false" redirectPort="8443" acceptCount="100"
               debug="0" connectionTimeout="20000"
               disableUploadTimeout="true"
               URIEncoding="UTF-8" useBodyEncodingForURI="true" />

了，到此，重啓tomcat，訪問  就可以看到搜索主頁了，而且搜索支持中文

和分詞，雖然分得不是很好。

13 接下來一個重要的功能就是增量更新索引。

在D:/nutch下建立recrawl.sh 。內容爲

#!/bin/bash

# A simple script to run a Nutch re-crawl

if [ -n "$1" ]

then

crawl_dir=$1

else

echo "Usage: recrawl crawl_dir [depth] [adddays]"

exit 1

if [ -n "$2" ]

then

depth=$2

else

depth=5

if [ -n "$3" ]

then

adddays=$3

else

adddays=0

webdb_dir=$crawl_dir/db

segments_dir=$crawl_dir/segments

index_dir=$crawl_dir/index

# The generate/fetch/update cycle

for ((i=1; i <= depth ; i++))

bin/nutch generate $webdb_dir $segments_dir -adddays $adddays

segment=`ls -d $segments_dir/* | tail -1`

bin/nutch fetch $segment

bin/nutch updatedb $webdb_dir $segment

done

# Update segments

mkdir tmp

bin/nutch updatesegs $webdb_dir $segments_dir tmp

rm -R tmp

# Index segments

for segment in `ls -d $segments_dir/* | tail -$depth`

bin/nutch index $segment

done

# De-duplicate indexes

# "bogus" argument is ignored but needed due to

# a bug in the number of args expected

bin/nutch dedup $segments_dir bogus

# Merge indexes

ls -d $segments_dir/* | xargs bin/nutch merge $index_dir

在cygwin裏面，執行

./recrawl crawled 8

意思是更新索引，目錄是crawled,層數8 。還可以把天數跟在後面。執行完畢後要重啓Tomcat，因爲

Nutch.war裏面對查詢有緩存。

最後可以把這個腳本放到crontab裏面，每天夜裏2點執行，執行完畢後重新啓動Tomcat。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Nutch 0.7.2 學習筆記

Nutch 學習筆記

hadoop 學習

好久沒有在網上寫心情了。

nutch怎樣過濾spam信息。

開源crawler

nutch 高亮和增加索引長度

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結