爬蟲框架Heritrix ,如何修改其源碼,並能在java控制檯下運行的方法如下:
首先打開eclipse,創建一個java程序;
1、複製 ...\heritrix-1.14.4-src\heritrix-1.14.4\src\java 目錄下com,org,st 這三個文件到工程的src目錄下
3、右鍵點擊項目,選擇properties,修改java complier,選擇Configure Workspace Settings...,再修改Deprecate and restrictied API,把error改成warnning,解決Heritrix.java文件報錯的方法。
4、複製...\heritrix-1.14.4-src\heritrix-1.14.4\conf文件至工程的根目錄的src源文件下,並且修改heritrix.properties ,將 jmxremote.password.template,修改成jmxremote.password文件
5、複製webapps文件至工程的根目錄
6、複製...\heritrix-1.14.4-src\ heritrix-1.14.4 \ src \resources\org\archive\utiltlds-alpha-by-domain.txt至org.archive.util目錄下
7、以上操作都是在src文件下進行的,要heritrix-1.14.4(非src包)下的admin.war文件,當然還需要在複製admin.war文件至webapps下