1、 Java jdk-1.6
1.2 修改環境變量
JAVA_HOME=C:/Java/jdk1.6.0_03/bin
1.3 測試
java -version
2、tomcat-6.0
from: http://tomcat.apache.org/
2.2 解壓到C盤目錄並改名
2.3 修改配置
conf/server.xml
<Connector port="8080" maxHttpHeaderSize="8192"
maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
enableLookups="false" redirectPort="8443" acceptCount="100"
c disableUploadTimeout="true"
URIEncoding="UTF-8" useBodyEncodingForURI="true" />
2.4 啓動服務
startup
測試:http://localhost:8080/
4、 nutch-1.0
4.1 下載 http://www.apache.org/dyn/closer.cgi/lucene/nutch/
4.2 解壓後到C盤根目錄
4.3 指定爬蟲規則
修改 conf/crawl-urlfilter.txt
#+^http://([a-z0-9]*/.)*MY.DOMAIN.NAME/
<property>
<name>http.agent.name</name>
<value>my nutch agent</value>
</property>
<property>
<name>http.agent.version</name>
<value>1.0</value>
</property>
</configuration>
cd /cygdrive/c/nutch-1.0
執行命令:
4.6 部署web前端
將 nutch-1.0.war 拷貝到webapps目錄下
通過瀏覽器訪問 http://localhost:8080/nutch-1.0/ 後,war包自解壓。
4.7 修改nutch的web配置
c:/tomcat6/webapps/nutch-1.0/WEB-INF/classes/nutch-site.xml
將內容更改爲索引生成的目錄。
QUOTE:
<property>
<name>searcher.dir</name>
<value>c:/nutch-1.0/crawled</value>
</property>
</nutch-conf>
http://wiki.apache.org/nutch/RunNutchInEclipse0.9
http://yyri.blog.sohu.com/114754472.html
http://wiki.apache.org/nutch/GettingNutchRunningWithWindows