Nutch 配置可恥的失敗

原創

2020-06-20 09:37

準備爲公司內網配置一個搜索引擎，千挑萬選之下總算定位到nutch上了，不用luenuc是因爲nutch已經實現了他的功能，而來他沒有crawl 爬蟲，得自己配置爬蟲，有點太麻煩，nutch再適合不過了，之前看過許多nutch的文章，從大概內容上來看配置錯誤居多，感覺很難配置正確，且容易出錯，後來，好不容易配置成功了，ok，雖然說cynwiin不好用，unix格式，但是卻也容易，這個玩意開始安裝時安裝文件竟然500多k，竊喜，看介紹，大概是win下虛擬unix環境，所以，有點不接，隱隱約約感到不同，懷着忐忑不安的心情開始安裝，果然，到了第三步，原來真正的安裝文件要從網上下載，我們這1m+4臺機子的網速，暈了，算了，上網搜，有下載文件一看，我的乖乖500多兆啊，下吧，迅雷打開，就開始下載了，大概下了1-2個小時，這玩意下載完畢，安裝，到挺快的，打開，根據網上的配置，一切ok，nutch安裝也成功了，呵呵。
滿以爲萬事大吉了，誰想到一個配置錯誤讓我木鑾了2-3個小時，當我配置好各種參數進行索引的時候，發現索引速度非常快，不到1分鐘就索引完畢了，不對啦，速度也不能這樣快啊，我們整個網絡再說也有好幾百兆的東西，下來一看索引大小總共才3k多，我哭，怎麼回事，反正今天上午沒搞定，還延長了半個小時時間，後來回去，一下嘍，突然想起，對了，網站原來給弄了個保密的登陸【這是變態的保密員想起來的，說什麼公司內網訪問要輸入密碼纔可以】，後來想了一下，如果抓去url設置成http://www.qxxxxxa.com/ 會被定向到一個登陸頁面，明白了，所以索引就結束的快，再者，nutch默認好像不會抓去url帶參數這種比如如果含有 "?" 這種字符會被過濾掉，怎麼辦，反正官方網站是看來找不到答案了，就算找到，也會大費周折，算了，還是google吧，google了無數結果，也實驗了無數次，也許是功到自然成吧，終於找到一個可用的實驗，把抓去url設置成 http://www.apache.org/發現apache下各種子站點和文件都開始索引了，看着每個線程慢慢增長，我心裏有一種如釋重負的滿足感，於是把規則改到內網，抓去，ok，我信息的看到，各種站點，子站點都開始被抓去了，10個線程在一個4核的cpu上慢慢跑吧，呵呵
總結起來，使用nutch配置一共需要注意以下幾點
a. 配置抓去url 在conf/crawl-urlfilter.txt 文件裏頭
b. 配置幾個http選項主要在 nutch-default.xml 和 nutch-site.xml裏面
c. 配置cynwin環境在windows下使用nutch 必須
d. 在nutch下新建目錄作爲存放被抓去主要url的文件，文件不必有擴展名
e. 在tomcat下部署nutch會亂碼，修復亂碼問題
f. nutch api 的使用 ... ...

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Nutch 配置可恥的失敗

如何使用 JS 判斷用戶是否處於活躍狀態

lightdb秒級增加列和刪除列（not null帶默認值）

lightdb數據庫超時相關控制參數

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

lightdb mysql 8.0兼容之不可見主鍵

使用 JS 實現在瀏覽器控制檯打印圖片 console.image()

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（四）使用域名訪問網站應用

Spring2.5 結合webwork2.2.7 整合時出現的問題

BIRT 使用xml動態數據源總結

我的工程架構變遷

Nutch 配置可恥的失敗

我喜新厭舊,我喜歡上了她,windows 7

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

Nutch 配置 可恥的失敗

Nutch 配置可恥的失敗