1.下載heritrix,下載網址:https://sourceforge.net/projects/archive-crawler/files/archive-crawler%20%28heritrix%201.x%29/,下載heritrix-1.14.4-src
2.解壓下載的zip文件,在eclipse下創建java項目。
3.將F:\爬蟲 heritrix\heritrix-1.14.4-src\heritrix-1.14.4\lib下的所有jar包通過add Libary導入到工程的libary中,將heritrix-1.14.4-src\heritrix-1.14.4\src\java下的st和org包放入到項目的src目錄下
4.將heritrix-1.14.4-src\heritrix-1.14.4\src\conf下的所有文件放入到src的根目錄下,並修改heritrix..propertities文件中的heritrix.cmdline.admin的值爲admin:admin.分別對應用戶名:密碼。
5.將F:\爬蟲 heritrix\heritrix-1.14.4-src\heritrix-1.14.4\src目錄下除了conf和lib的其他文件放入到項目的根目錄下。
最後的項目目錄爲:
6.運行org.archive.crawler下的Heritrix類,當控制檯有如下打印結果時,證明運行成功.
Ip地址:127.0.0.1 端口號:8082 版本號:1.14.4
7.在瀏覽器上運行即可,地址:IP地址:端口號
初次寫博客,也是初次使用heritrix,有錯誤歡迎大家指出