Heritrix1.14.3 在Eclipse 配置總結

轉自 http://hi.baidu.com/zpz2009/blog/item/080d3665c1cbd5f8f636540b.html 

 

如果出現selection can not contains a main type

需要修改項目的構建路徑。

默認的是Heritrix/src

把它刪掉,改成是Heritrix就可以了

 

我在學習<<開發自己的搜索引擎——Lucene 2.0+Heritrix>>一書時對Heritrix的配置感到很迷惑,現在Heritrix已經出到了第Heritrix1.14.3版本了,看到書上的配置覺得很複雜,於在網上找了一些資料,發現衆說紛紛,但是還好,每個人的做法都有一定的道理,最主要的說當用別人說的方法不對,能夠找出解決方法,我在網上參考了一種方法,但是按照他的做法做下來,卻有錯誤,還好,我及時的改正過來了,實現起來很方便的,只要幾分鐘的時間就可以配置好了.以下是我總結後的方法,以供大家參考.

首先到Heritrix的官方網下載Heritrix1.14.3
1、下載heritrix-1.14.1-src.zip和heritrix-1.14.1.zip兩個壓縮包,並解壓,以後分別簡稱SRC包和ZIP包;
2、在Eclipse下新建Java項目,取名Heritrix;(如我打開Eclipse的工作區在D:/eclipse/search下,當我建了項目Heritrix後,我就可以找到D:/eclipse/search/Heritrix文件夾.其中包含兩個工程屬性文件.classpath和.project。有的人建了後還有兩個文件目錄bin和src,本人的沒有,如果有的話刪除掉兩個文件目錄bin和src。)
3、複製SRC包下面src/java文件夾下org、com、st三個文件夾到項目根目錄(即D:/eclipse/search/Heritrix);
4、複製SRC包下src下resources文件夾到項目根目錄;打開conf將其下所有文件複製到項目根目錄。
5、複製SRC包下lib文件夾到項目根目錄;
6、複製ZIP包下webapps文件夾到項目根目錄;

做好了以上,在Eclipse中Heritrix項目右擊刷新一下,就可以看到剛纔所複製的包了。
7、在Eclipse中修改項目conf下heritrix.properties文件(
修改內容至少兩個兩個地方:
       @VERSION@ 改爲 1.14.3
      heritrix.cmdline.admin = 改爲 heritrix.cmdline.admin = admin:xxm (這裏是用戶名與密碼,可任讀者設定.)
      heritrix.cmdline.port = 改爲 heritrix.cmdline.port = 8080 (注默認是8080的如果你已佔用了這個端口號的話,要設另一個才行,因爲我之前安裝了tomcat,所以這裏改爲8090)

配置Heritrix.properties,主要配置四項:如下紅色部分所示

##############################################################################

# Properties with prefixes 'heritrix.', 'org.archive.', or 'system.' prefix
# get copied into System.properties on startup so available via
# System.getProperties. (For 'system.' properties, that prefix is stripped.
# (See Heritrix.loadProperties()).

# Version is filled in by the maven.xml pregoal. It copies here the project
# currentVersion property.
heritrix.version = 1.14.1

# Location of the heritrix jobs directory.
heritrix.jobsdir = jobs

# Default commandline startup values.
# Below values are used if unspecified on the command line.
heritrix.cmdline.admin = admin:admin
heritrix.cmdline.port = 8088
heritrix.cmdline.run = false
heritrix.cmdline.nowui = false
heritrix.cmdline.order =
heritrix.cmdline.jmxserver = false
heritrix.cmdline.jmxserver.port = 8081

##############################################################################

改好了以上的,別忘了保存一下哦.
8、在項目Heritrix上右鍵選擇構建路徑->配置構建路徑->庫選項卡->添加Jar,將lib目錄下的所有.jar文件選中,點擊完成!
9、在項目/src/org.archive.crawler包下Heritrix.java上點擊右鍵選運行方式->運行爲應用程序.如果一切正常,運行後的控制檯顯示了:可能各都不一樣,大約意思是這樣了.

12:18:12.703 EVENT Starting Jetty/4.2.23
12:18:12.937 EVENT Started WebApplicationContext[/,Heritrix Console]
12:18:13.062 EVENT Started SocketListener on 127.0.0.1:8090
12:18:13.062 EVENT Started org.mortbay.jetty.Server@179c285
Heritrix version: 1.14.3
這時你可以打開瀏覽器,輸入http://localhost:8090http://localhost:8080

 

然後輸入你的剛纔設的用戶名和密碼就可以登錄Heritrix

 

總結:本人按別人的方法做時,發現了錯在了源類包的路徑不對.即在Eclipse中類的源代碼中發現包的位置顯示了錯,於是按照類中源代碼的的的包路徑重新調整了各包的位置,於是就對了,讀者如果出現這樣問題可以自己查看一下做合當的調整.

同時,大約是隻要把這幾個必須有的包都複製到了,就可以了。

注:如由於大家出現了一些問題.下面我給出了結構圖,這是配置完後能運行的工程,各位如果不一樣,可以自行調整.下面是兩個圖,由於太多了,中間的包就略了一些,大家查看.因爲目前有點忙,沒有能回答大家的問題,請諒.

 

 

發佈了20 篇原創文章 · 獲贊 2 · 訪問量 3萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章