nutch-1.4在eclipse中運行

1.選中nutch所在eclipse中的工程,新建一個文件夾urls

2.選中urls文件夾,新建urls.txt(存放url,crawl的起點)。寫入url


3.修改nutch/conf中的nutch-site.xml。如下

4.修改nutch/conf 中的regex-urlfilter.txt (url 的過濾規則,自己修改)

5.選中nutch工程,右擊run as -> run configurations,雙擊java application,新建一個,Name隨意寫,關鍵是下面的main class要正確

6.點擊上面的arguments,如下修改


7.點擊run,效果

8.爬取成功,如果要讀取爬取的信息則可以

run as -> run configurations 新建java appication,如下操作


結果如下

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章