Nutch 配置 可恥的失敗

準備爲公司內網配置一個搜索引擎,千挑萬選之下總算定位到nutch上了,不用luenuc是因爲nutch已經實現了他的功能,而來他沒有crawl 爬蟲,得自己配置爬蟲,有點太麻煩,nutch再適合不過了,之前看過許多nutch的文章,從大概內容上來看配置錯誤居多,感覺很難配置正確,且容易出錯,後來,好不容易配置成功了,ok,雖然說cynwiin不好用,unix格式,但是卻也容易,這個玩意開始安裝時安裝文件竟然500多k,竊喜,看介紹,大概是win下虛擬unix環境,所以,有點不接,隱隱約約感到不同,懷着忐忑不安的心情開始安裝,果然,到了第三步,原來真正的安裝文件要從網上下載,我們這1m+4臺機子的網速,暈了,算了,上網搜,有下載文件一看,我的乖乖500多兆啊,下吧,迅雷打開,就開始下載了,大概下了1-2個小時,這玩意下載完畢,安裝,到挺快的,打開,根據網上的配置,一切ok,nutch安裝也成功了,呵呵。
滿以爲萬事大吉了,誰想到一個配置錯誤讓我木鑾了2-3個小時,當我配置好各種參數進行索引的時候,發現索引速度非常快,不到1分鐘就索引完畢了,不對啦,速度也不能這樣快啊,我們整個網絡再說也有好幾百兆的東西,下來一看索引大小總共才3k多,我哭,怎麼回事,反正今天上午沒搞定,還延長了半個小時時間,後來回去,一下嘍,突然想起,對了,網站原來給弄了個保密的登陸【這是變態的保密員想起來的,說什麼公司內網訪問要輸入密碼纔可以】,後來想了一下,如果抓去url設置成http://www.qxxxxxa.com/ 會被定向到一個登陸頁面,明白了,所以索引就結束的快,再者,nutch默認好像不會抓去url帶參數這種比如如果含有 "?" 這種字符會被過濾掉,怎麼辦,反正官方網站是看來找不到答案了,就算找到,也會大費周折,算了,還是google吧,google了無數結果,也實驗了無數次,也許是功到自然成吧,終於找到一個可用的實驗,把抓去url設置成 http://www.apache.org/發現apache下各種子站點和文件都開始索引了,看着每個線程慢慢增長,我心裏有一種如釋重負的滿足感,於是把規則改到內網,抓去,ok,我信息的看到,各種站點,子站點都開始被抓去了,10個線程在一個4核的cpu上慢慢跑吧,呵呵
總結起來,使用nutch配置一共需要注意以下幾點
a. 配置抓去url 在conf/crawl-urlfilter.txt 文件裏頭
b. 配置幾個http選項 主要在 nutch-default.xml 和 nutch-site.xml裏面
c. 配置cynwin環境在windows下使用nutch 必須
d. 在nutch下新建目錄 作爲存放被抓去主要url的文件,文件不必有擴展名
e. 在tomcat下部署nutch會亂碼,修復亂碼問題
f. nutch api 的使用 ... ...
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章