Lucene+網絡爬蟲(爬iteye技術文章)+Spring+Struts2+Jquery(梁健-原創)

  最近打算做個爬蟲的小例子,後來想想幹脆運用的全面一點,以後就當做是個工程筆記,忘記的代碼就可以再到這個工程裏查查了。solr是個很不錯的東西,直接用就OK。下一計劃打算看看compass,是一個封裝了LuceneAPI的一個框架,用起來有點類似Hibernate,值得學習一下~ 好了,先個大家分享一下這個吧,也希望大家以後做了什麼小例子也能互相分享,一起進步嘛~

附件爲工程,導入到MyEclipse下,按下面的配置弄一下就OK了!

搜索頁:D:/Workspaces/MyEclipse7.5/httpClientHtmlParse/WebRoot/jsp/index.jsp

爬蟲管理頁面:D:/Workspaces/MyEclipse7.5/httpClientHtmlParse/WebRoot/jsp/manager.jsp

使用步驟:

第一步:1、選擇指定類別;2、輸入從第幾頁到第幾頁;3、點擊“運行爬蟲”按鈕 (由於爬多了iteye會封你IP,所以建議你爬兩頁就進入驗證碼頁面輸入一次驗證碼再繼續)

第二步:建立索引,你可以對指定類別建立索引,也可以將所有類別的數據統一建立索引,建議你全都建立一遍,方便查詢。

第三步:回到搜索頁,輸入你要查詢的東西,點擊搜索(此時查詢的是Lucene索引庫,已經不需要查數據庫了)。

本工程採用UTF-8編碼格式
運行環境:Jdk1.5
Web容器:Tomcat6.0
-------------------------
Tomcat6.0需要配置虛擬目錄:
修改文件:D:/Program Files/Apache Software Foundation/Tomcat 6.0/conf/server.xml

在</Host>標籤中加入:
<Context path="/iteye" docBase="D:/pachong/iteye_WebPage" debug="0" reloadable="true"/>

docBase的路徑需與path.properties配置文件中的iteye.path相同
-------------------------

將庖丁分詞器解壓到一個不含空格和中文字符的目錄下:

配置庖丁分詞器的環境變量:

變量名:PAODING_DIC_HOME
變量值:G:/paoding-analysis-2.0.4-beta/dic(變量值是庖丁分詞器解壓後的路徑的dic詞庫文件夾)
-------------------------

path.properties 裏配置路徑
log4j.properties 裏配置日誌路徑
-------------------------

作者:梁健 QQ:15141739  希望能給大家帶來幫助~如果有人能把那個驗證碼給破解了,希望能夠分享給我!謝謝~
驗證碼入口:http://www.iteye.com/index/human_test

我的郵箱:[email protected] ; [email protected]

 

 
搜索頁:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章