1.選中nutch所在eclipse中的工程,新建一個文件夾urls
2.選中urls文件夾,新建urls.txt(存放url,crawl的起點)。寫入url
3.修改nutch/conf中的nutch-site.xml。如下
4.修改nutch/conf 中的regex-urlfilter.txt (url 的過濾規則,自己修改)
5.選中nutch工程,右擊run as -> run configurations,雙擊java application,新建一個,Name隨意寫,關鍵是下面的main class要正確
6.點擊上面的arguments,如下修改
7.點擊run,效果
8.爬取成功,如果要讀取爬取的信息則可以
run as -> run configurations 新建java appication,如下操作
結果如下