在eclipse-SDK-4.2-win32-x86_64中構建Heritrix1.14.4

聽到大家說:"java爬蟲"。只覺得真陌生啊,不過很有興趣。做個瞭解。這裏用的版本是Heritrix 1.14.4(2010年5月10日的版本 目前是最新版本),差了很多的網上資料,發現以下步驟,不過我可是把工程刪了建,建了刪啊,只能說明自己太水了。哈哈,廢話不多說,上酸菜:

 1.從http://sourceforge.net中搜索下載 :heritrix-1.14.4.zip 和 heritrix-1.14.4-src.zip ,分別對 heritrix-1.14.4.zip 和heritrix-1.14.4-src.zip 進行解壓 

2.在MyEclipse 中創建一個java project的工程Heritrix_test(工程的名字可以自己定)。 

3.將heritrix-1.14.4-src.zip解壓後文件夾下的src/java 中的 com、org、st三個文件夾複製到項目Heritrix_test的src下。

 4.將heritrix-1.14.4-src.zip解壓後文件夾下src中conf文件夾複製到項目Heritrix_test的根目錄下。

 5.將heritrix-1.14.4-src.zip解壓後文件夾下lib文件夾複製到項目Heritrix_test的根目錄下。

 6.將heritrix-1.14.4-src.zip解壓後文件夾下src/resources/org/archive/util中tlds-alpha-by-domain.txt文件複製到項目Heritrix_test中src/org.archive.util包下。 7.將heritrix-1.14.4.zip解壓中webapps文件夾複製到項目Heritrix_test的根目錄下。

 8.將heritrix-1.14.4-src.zip解壓中src/webapps文件夾下的兩個文件夾複製到項目Heritrix_test的webapps目錄下

 9.對配置文件進行修改,找到項目中conf下heritrix.properties文件 ,修改如下: //設置版本 heritrix.version = 1.14.4 //設置用戶密碼 heritrix.cmdline.admin = admin:admin //設置端口 heritrix.cmdline.port = 8080 *(端口號一般是給定了的,可以不用再修改) 

10.接下來將jar包導入項目。右鍵單擊Heritrix項目,選擇Build Path->Configure Build Path,選中 Libraries選項,選擇Add External JARS,將heritrix-1.14.4/lib下的所有jar包加入到Build Path。

 11. 在Window->Preference->Java->Compiler中,將Complier compliance level改爲1.5,目的是爲了使Heritrix編譯通過。否則Eclipse可能不認assert這個關鍵字。(這個很關鍵,要不然會報錯的)

 12.進入Windows -> Preferences -> Java -> Compiler -> Errors/Warnings-> Deprecated and trstricted API -> Forbidden reference (access rules): -> change to warning,如果不做這一步,會在org.archive.crawler包中Heritrix.java出現sun.net.www.protocol.file.FileURLConnection的錯誤。這是因爲是sun包是受保護的包,默認爲只有sun公司的軟件才能使用,對受保護的包使用warning即可。 

13.在工程中找到org.archive.crawler.Heritrix.java右鍵選Run as—>Run Configurations運行配置 選擇Classpath 選擇User Entries -- Advanced 選擇Add Folders 將conf文件夾添加進去。 點擊Run 開始運行 啓動成功,控制檯打印

12:06:11.703 EVENT  Starting Jetty/4.2.23
12:06:12.125 EVENT  Started WebApplicationContext[/,Heritrix Console]
12:06:12.265 EVENT  Started SocketListener on 127.0.0.1:8080
12:06:12.265 EVENT  Started org.mortbay.jetty.Server@53f0a8
Heritrix version: 1.14.4

14 運行http://localhost:8080,出現登錄頁面,輸入用戶名:admin,密碼:admin登錄成功,標明配置成功

上圖:


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章