Nutch1.0的配置與運行

配置軟件:
1、 Java jdk-1.6
1.1 下載安裝
安裝目錄:C:/Java/jdk1.6.0_03
1.2 修改環境變量
JAVA_HOME=C:/Java/jdk1.6.0_03/bin
CLASSPATH=C:/Java/jdk1.6.0_03/lib/dt.jar;C:/Java/jdk1.6.0_03/lib/tools.jar
1.3 測試
java -version

2、tomcat-6.0
2.1 下載
from:
http://tomcat.apache.org/


2.2 解壓到C盤目錄並改名
安裝目錄:C:/tomcat6

2.3 修改配置
conf/server.xml

QUOTE:
  <!-- Define a non-SSL HTTP/1.1 Connector on port 8080 -->
    <Connector port="
8080
" maxHttpHeaderSize="8192"
            maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
               enableLookups="false" redirectPort="8443" acceptCount="100"
               c disableUploadTimeout="true"
               
URIEncoding="UTF-8" useBodyEncodingForURI="true" />   

 

默認服務端口爲8080,若有衝突(如Apache),則可通過此配置文件更改端口(藍色)如果配置後nutch出現中文亂碼問題,則增加編碼配置(紅色)

2.4 啓動服務
startup

測試:
http://localhost:8080/
3、安裝Cygwin
由於運行Nutch自帶的腳本命令需要Linux的環境,所以必須首先安裝Cygwin來模擬這種環境
4、 nutch-1.0
4.1 下載 http://www.apache.org/dyn/closer.cgi/lucene/nutch/

4.2  解壓後到C盤根目錄
C:/nutch-1.0
建 url.txt文件,指定爬取列表
在文件中寫入如下內容:
例如:/

4.3  指定爬蟲規則
修改 conf/crawl-urlfilter.txt

 

QUOTE:
# accept hosts in MY.DOMAIN.NAME
#+^
http://([a-z0-9]*/.)*MY.DOMAIN.NAME/

 

 

把這裏改成你要的域名
如 +^http://www.163.com/

4.4 修改 conf/nutch-site.xml
QUOTE:
<configuration>
        <property>
                <name>http.agent.name</name>
                <value>my nutch agent</value>
        </property>
        <property>
                <name>http.agent.version</name>
                <value>1.0</value>
        </property>
</configuration>
如果沒有配置此agent,爬取時會出現 Agent name not configured! 的錯誤。
4.5 開始爬取
打開Cygwin,
在命令行窗口中輸入:  
  cd /cygdrive/c/nutch-1.0
執行命令:
bin/nutch crawl url.txt -dir crawled -depth 3 -threads 4 -topN 50
在這裏dir指定抓取內容所存放的目錄,depth表示以要抓取網站頂級網址爲起點的爬行深度,threads指定併發的線程數 topN指每層抓取的網頁數。

4.6 部署web前端
將 nutch-1.0.war 拷貝到webapps目錄下
通過瀏覽器訪問
http://localhost:8080/nutch-1.0/ 後,war包自解壓。
4.7 修改nutch的web配置
c:/tomcat6/webapps/nutch-1.0/WEB-INF/classes/nutch-site.xml
將內容更改爲索引生成的目錄。
QUOTE:
<nutch-conf>
        <property>
                <name>searcher.dir</name>
                <value>c:/nutch-1.0/crawled</value>
        </property>
</nutch-conf>
注意上面相應的也應改成href="nutch-conf.xsl"
注:本文轉載自以下地址:http://cqllang.javaeye.com/blog/377957
其餘參考資料:
以下敘述基於Nutch 1.0,Eclipse 3.4 Ganymede
http://yyri.blog.sohu.com/114754472.html
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章