開源的網絡爬蟲larbin


larbin是一種開源的網絡爬蟲/網絡蜘蛛,由法國的年輕人 Sébastien Ailleret獨立開發。larbin目的是能夠跟蹤頁面的url進行擴展的抓取,最後爲搜索引擎提供廣泛的數據來源。Larbin只是一個爬蟲,也就 是說larbin只抓取網頁,至於如何parse的事情則由用戶自己完成。另外,如何存儲到數據庫以及建立索引的事情 larbin也不提供。一個簡單的larbin的爬蟲可以每天獲取500萬的網頁。
利用larbin,我們可以輕易的獲取/確定單個網站的所有聯結,甚至可以鏡像一個網站;也可以用它建立url 列表羣,例如針對所有的網頁進行 url retrive後,進行xml的聯結的獲取。或者是 mp3,或者定製larbin,可以作爲搜索引擎的信息的來源。
不過它的最大的亮點還是開源,相信很多人拿到larbin源代碼的時候會感覺無從入手,下面是一篇非常不錯的開源的網絡爬蟲/網絡蜘蛛larbin結構分析的文章,有興趣的最好仔細閱讀嘗試一下。
互聯網是一個龐大的非結構化的數據庫,將數據有效的檢索並組織呈現出來有着巨大的應用前景,尤其是類似RSS的以XML爲基礎的結構化的數據越來越 多,內容的組織方式越來越靈活,檢索組織並呈現會有着越來越廣泛的應用範圍,同時在時效性和可讀性上也會有越來越高的要求。這一切的基礎是爬蟲,信息的來 源入口。一個高效,靈活可擴展的爬蟲對以上應用都有着無可替代的重要意義。
要設計一個爬蟲,首先需要考慮的效率。對於網絡而言,基於TCP/IP的通信編程有幾種方法。
第一種是單線程阻塞,這是最簡單也最容易實現的一種,一個例子:在Shell中通過curl,pcregrep等一系統命令可以直接實現一個簡單的 爬蟲,但同時它的效率問題也顯而易見:由於是阻塞方式讀取,dns解析,建立連接,寫入請求,讀取結果這些步驟上都會產生時間的延遲,從而無法有效的利用 服務器的全部資源。
第二種是多線程阻塞。建立多個阻塞的線程,分別請求不同的url。相對於第一種方法,它可以更有效的利用機器的資源,特別是網絡資源,因爲無數線程 在同時工作,所以網絡會比較充分的利用,但同時對機器CPU資源的消耗也是比較大,在用戶級多線程間的頻繁切換對於性能的影響已經值得我們考慮。
第三種是單線程非阻塞。這是目前使用的比較多的一種做法,無論在client還是server都有着廣泛的應用。在一個線程內打開多個非阻塞的連 接,通過poll/epoll /select對連接狀態進行判斷,在第一時間響應請求,不但充分利用了網絡資源,同時也將本機CPU資源的消耗降至最低。這種方法需要對dns請求,連 接,讀寫操作都採用異步非阻塞操作,其中第一種比較複雜,可以採用adns作爲解決方案,後面三個操作相對簡單可以直接在程序內實現。
效率問題解決後就需要考慮具體的設計問題了。
url肯定需要一個單獨的類進行處理,包括顯示,分析url,得到主機,端口,文件數據。
然後需要對url進行排重,需要一個比較大的url Hash表。
如果還要對網頁內容進行排重,則還需要一個Document Hash表。
爬過的url需要記錄下來,由於量比較大,我們將它寫到磁盤上,所以還需要一個FIFO的類(記作urlsDisk)。
現在需要爬的url同樣需要一個FIFO類來處理,重新開始時,url會從定時從爬過的url FIFO裏取出來,寫到這個FIFO裏。正在運行的爬蟲需要從這個FIFO裏讀數據出來,加入到主機類的url列表裏。當然,也會從前一個FIFO裏直接 讀url出來,不過優先級應該比這個裏面出來的url低,畢竟是已經爬過的。
爬蟲一般是對多個網站進行爬取,但在同時站點內dns的請求可以只做一次,這就需要將主機名獨立於url,單獨有一個類進行處理。
主機名解析完成後需要有一個解析完成的IP類與之應用,用於connect的時候使用。
HTML文檔的解析類也要有一個,用來分析網頁,取出裏面的url,加入到urlsDisk。

再加上一些字符串,調度類,一個簡單的爬蟲基本上就完成了。
以上基本上是Larbin的設計思路,Larbin在具體實現上還有一些特殊的處理,例如帶了一個webserver,以及對特殊文件的處理。 Larbin有一點設計不不太好,就是慢的訪問會越來越多,佔用大量的連接,需要改進,另外如果對於大規模的爬蟲,這僅僅實現了抓取的部分,要分佈式的擴 展還需要增加url的集中管理與調度以及前臺spider的分佈式算法。
Larbin網站爬蟲簡明使用說明
larbin是一種爬蟲工具,我也是前段時間網上看到 Larbin 一種高效的搜索引擎爬蟲工具 一文時才知道有這麼個東西,初步認定,我比較喜歡這個工具(比起nutch的crawl來說),因爲它是C++寫的,類似C嘛,我熟,可以自己改改,順便 學習一下C++(幾年來的經驗告訴我說:改別人的東西來學一種技術比從頭寫helloworld快很多)。於是開始了我艱辛的larbin試用之旅。
回頭看看自己遇到的問題都是由於沒認真看文檔引起的,唉,老毛病了。下次即使是E文的也得好好看,不能盲目的試,浪費時間。
larbin官方地址:http://larbin.sourceforge.net/index-eng.html
一,編譯
這也好說,whahahaha,那是!因爲從官方網站下下來的代碼不能編譯通過(linux gcc下)
./configure
make
gcc -O3 -Wall -D_REENTRANT -c -o parse.o parse.c
parse.c:115: error: conflicting types for ’adns__parse_domain’
internal.h:571: error: previous declaration of ’adns__parse_domain’ was here
parse.c:115: error: conflicting types for ’adns__parse_domain’
internal.h:571: error: previous declaration of ’adns__parse_domain’ was here
gmake[1]: *** [parse.o] 錯誤 1
gmake[1]: Leaving directory `/home/leo/leo/larbin-2.6.3/adns’
make: *** [all] 錯誤 2
函數原型和定義不一致這個好改:
打開./adns/internal.h文件,把568-571行直接註釋掉就行了。
二,運行
這個就不說了,./larbin就運行了,larbin.conf中先進行配置就可以了,這個配置就不說了。。
運行後可以http://host:8081 看運行狀態,不錯的想法。 larbin.conf中有個:inputPort 1976配置,就是可以運行時增加要抓取的URL,這個想法非常好,可是?怎麼加呢?象起初那樣:http://host:1976那樣是不行的,報 錯???試了好久沒結果,最後GDB跟蹤了一下,唉,原來直接telnet host 1976進行增加就可以了。後來看到文檔裏寫的親親楚楚,暈倒。。。。。
三,結果
哈哈,下班後找了臺機子跑了起來,那晚睡覺的時候都夢見自己的搜索引擎趕GOOGLE超BAIDU了,那個興奮啊。
第二天上班的時候取看結果,發現目錄下除了些fifo*文件外什麼都沒有,那個鬱悶。沒辦法啊,再看文檔 How to customize Larbin 發現這麼段說明:
The first thing you can define is the module you want to use for ouput. This defines what you want to do with the pages larbin gets. Here are the different options :
DEFAULT_OUTPUT : This module mainly does nothing, except statistics.
SIMPLE_SAVE : This module saves pages on disk. It stores 2000 files per directory (with an index).
MIRROR_SAVE : This module saves pages on disk with the hierarchy of the site they come from. It uses one directory per site.
STATS_OUTPUT : This modules makes some stats on the pages. In order to see the results, see http://localhost:8081/output.html.
靠,默認什麼都沒輸出,於是認真的看了官方網站上僅有的兩個文檔,修改了options.h再編譯,終於有結果了。
我的option中改了:
SIMPLE_SAVE 簡單輸出一個目錄兩千個文件,包含索引。
CGILEVEL=0 處理服務器端程序,也就是但url中包含? & = 之類的querString時也處理。
NO_DUP
其餘可根據各自需要修改,詳見: How to customize Larbin 一文。
四,問題
在使用過程中發現,在抓網頁的時候,如果URL中包含未編碼(encodurl)中文時,無法抓取,簡單的看了一下在: src/utils/url.cc中的fileNormalize 有涉及。於是寫了個encodurl函數加在url類的構造函數裏,問題就解決了。
由於需要比較好的可定製性,這個工具似乎還不大滿足我的需求,最終我沒使用她,而是自己用perl在WWW:SimpleRobot的基礎上搞了個適合我的。。再說了perl在字符竄處理上應該不比C++慢,總的來說那個小工具性能還不錯。。呵呵。
不過還是把這些寫出來,給沒看文檔的朋友(希望很少),也警示自己一定要認真看文檔
本文來源於 冰山上的播客 http://xinsync.xju.edu.cn , 原文地址:http://xinsync.xju.edu.cn/index.php/archives/3759

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章