關注微信公衆號:(DT數據技術博文),查看更多JAVA爬蟲、大數據、人工智能技術.
一、前言
目前市場上爬蟲框架有很多,不同語言不同類型的爬蟲框架都有,然而在開發預研的時候對於選擇那種
框架對於很多開發者來說尤爲頭疼;
本篇主要總結一下市場上主流的開發語言中有哪些主流的爬蟲框架,以及爬蟲框架的優劣;希望在對你在選擇合適爬蟲框架中有所幫助。
二、主流語言爬蟲框架列表
常用爬蟲框架列表
JAVA | PYTHON | PHP | C# | C/C++ |
---|---|---|---|---|
Apache Nutch2 | scrapy | phpspider | DotnetSpider | open-source-search-engine |
webmagic | Crawley | Beanbun | NWebCrawler | Cobweb |
Heritrix | Portia | PHPCrawl | SmartSpider | upton |
WebCollector | PySpider | php selenium | Abot | wombat |
crawler4j | grab | xNet | Spidr | |
Spiderman | cola | AngleSharp | Larbin | |
SeimiCrawler | python selenium | HtmlAgilityPack | ||
jsoup | CSQuery | |||
java selenium | ||||
htmlunit |
三、主流爬蟲框架簡介
1.Java爬蟲框架
Apache Nutch2
地址:http://nutch.apache.org/
Nutch 是一個開源Java 實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。
Nutch 致力於讓每個人能很容易, 同時花費很少就可以配置世界一流的Web搜索引擎. 爲了完成這一宏偉的目標, Nutch必須能夠做到:
* 每個月取幾十億網頁
* 爲這些網頁維護一個索引
* 對索引文件進行每秒上千次的搜索
- 對索引文件進行每秒上千次的搜索
- 提供高質量的搜索結果
簡單來說Nutch支持分佈式,可以通過配置網站地址、規則、以及採集的深度(通用爬蟲或全網爬蟲)對網站進行採集,並提供了全文檢索功能,可以對採集下來的海量數據進行全文檢索;假如您想完成對站點所有內容進行採集,且不在乎採集和解析精度(不對特定頁面特定字段內容採集)的需求,建議你使用Apache Nutch,假如您想對站點的指定內容板塊指定字段採集,建議您使用垂直爬蟲較爲靈活。
webmgaic(推薦)
地址:http://webmagic.io/
WebMagic是一個簡單靈活的Java爬蟲框架。基於WebMagic,你可以快速開發出一個高效、易維護的爬蟲。
特性:
簡單的API,可快速上手
模塊化的結構,可輕鬆擴展
提供多線程和分佈式支持
Heritrix
地址:http://crawler.archive.org/
Heritrix 是一個由 java 開發的、開源的網絡爬蟲,用戶可以使用它來從網上抓取想要的資源。其最出色之處在於它良好的可擴展性,方便用戶實現自己的抓取邏輯。
WebCollector
地址:https://github.com/CrawlScript/WebCollector
WebCollector是一個無須配置、便於二次開發的JAVA爬蟲框架(內核),它提供精簡的的API,只需少量代碼即可實現一個功能強大的爬蟲。WebCollector-Hadoop是WebCollector的Hadoop版本,支持分佈式爬取。
crawler4j
地址::https://github.com/yasserg/crawler4j
crawler4j是一款基於Java的輕量級單機開源爬蟲框架,最大的一個特點就是簡單。另外也支持多線程、支持代理、可以過濾重複URL
基本上從加載jar到工程裏面 通過修改示例的代碼就可以簡單的實現一個爬蟲的全部功能,而這一切動作加起來都不需要超過半個小時。
Spiderman
地址:https://m.gitee.com/l-weiwei/spiderman
Spiderman 是一個Java開源Web數據抽取工具。它能夠收集指定的Web頁面並從這些頁面中提取有用的數據。 Spiderman主要是運用了像XPath、正則、表達式引擎等這些技術來實現數據抽取。
SeimiCrawler
地址:http://seimi.wanghaomiao.cn/
一個敏捷的,獨立部署的,支持分佈式的Java爬蟲框架
SeimiCrawler是一個強大的,高效敏捷的,支持分佈式的爬蟲開發框架,希望能在最大程度上降低新手開發一個可用性高且性能不差的爬蟲系統的門檻,以及提升開發爬蟲系統的開發效率。在SeimiCrawler的世界裏,絕大多數人只需關心去寫抓取的業務邏輯就夠了,其餘的Seimi幫你搞定。設計思想上SeimiCrawler受Python的爬蟲框架Scrapy啓發很大,同時融合了Java語言本身特點與Spring的特性,並希望在國內更方便且普遍的使用更有效率的XPath解析HTML,所以SeimiCrawler默認的HTML解析器是JsoupXpath,默認解析提取HTML數據工作均使用XPath來完成(當然,數據處理亦可以自行選擇其他解析器)。
jsoup
地址:https://jsoup.org/
jsoup 是一款Java 的HTML解析器,可直接解析某個URL地址、HTML文本內容。它提供了一套非常省力的API,可通過DOM,CSS以及類似於jQuery的操作方法來取出和操作數據。
2.Python爬蟲框架
scrapy (推薦)
地址:https://scrapy.org/
Scrapy,Python開發的一個快速、高層次的屏幕抓取和web抓取框架,用於抓取web站點並從頁面中提取結構化的數據。Scrapy用途廣泛,可以用於數據挖掘、監測和自動化測試。
Scrapy吸引人的地方在於它是一個框架,任何人都可以根據需求方便的修改。它也提供了多種類型爬蟲的基類,如BaseSpider、sitemap爬蟲等,最新版本又提供了web2.0爬蟲的支持。
Scrap,是碎片的意思,這個Python的爬蟲框架叫Scrapy。
Crawley
地址:http://project.crawley-cloud.com/
高速爬取對應網站的內容,支持關係和非關係數據庫,數據可以導出爲JSON、XML等
Portia
地址:https://scrapinghub.com/portia
Portia 是一個用 Python 編寫無需任何編程知識,就能可視爬取網站數據的開源工具。無需下載或安裝任何東西,因爲,Portia 是運行在您的 Web 瀏覽器中。
Portia 是 scrapyhub 開源的一款可視化爬蟲規則編寫工具。Portia 提供了可視化的 Web 頁面,只需通過簡單點擊,標註頁面上需提取的相應數據,無需任何編程知識即可完成爬取規則的開發。這些規則還可在 Scrapy 中使用,用於抓取頁面。
PySpider
地址:http://www.pyspider.cn/
PySpider:一個國人編寫的強大的網絡爬蟲系統並帶有強大的WebUI。採用Python語言編寫,分佈式架構,支持多種數據庫後端,強大的WebUI支持腳本編輯器,任務監視器,項目管理器以及結果查看器。
grab
地址:http://www.imscraping.ninja/posts/introducing-grab-framework-python-webscraping/
網絡爬蟲框架(基於pycurl/multicur)。
cola
地址:https://github.com/chineking/cola
一個分佈式爬蟲框架。項目整體設計有點糟,模塊間耦合度較高,不過值得借鑑。
3.PHP爬蟲框架
phpspider
地址:https://github.com/owner888/phpspider
phpspider是一個爬蟲開發框架。使用本框架,你不用瞭解爬蟲的底層技術實現,爬蟲被網站屏蔽、有些網站需要登錄或驗證碼識別才能爬取等問題。簡單幾行PHP代碼,就可以創建自己的爬蟲,利用框架封裝的多進程Worker類庫,代碼更簡潔,執行效率更高速度更快。
Beanbun
地址:http://www.beanbun.org/#/
Beanbun 是用 PHP 編寫的多進程網絡爬蟲框架,具有良好的開放性、高可擴展性。
支持守護進程與普通兩種模式(守護進程模式只支持 Linux 服務器)
默認使用 Guzzle 進行爬取
支持分佈式
支持內存、Redis 等多種隊列方式
支持自定義URI過濾
支持廣度優先和深度優先兩種爬取方式
遵循 PSR-4 標準
爬取網頁分爲多步,每步均支持自定義動作(如添加代理、修改 user-agent 等)
靈活的擴展機制,可方便的爲框架製作插件:自定義隊列、自定義爬取方式…
PHPCrawl
地址:http://phpcrawl.cuab.de/
PHPCrawl是一個PHP開源的Web檢索蜘蛛(爬蟲)類庫。PHPCrawl抓取工具“ Spider ”的網站,並提供一切有關網頁,鏈接,文件等信息。
PHPCrawl povides可以選擇性的指定的爬蟲的行爲,比如喜歡網址、內容類型,過濾器、 cookie的處理等方式。
4.c#爬蟲框架
DotnetSpider
地址:http://www.dotnetspider.com/
DotnetSpider這是國人開源的一個跨平臺、高性能、輕量級的爬蟲軟件,採用 C# 開發。目前是.Net開源爬蟲最爲優秀的爬蟲之一。
NWebCrawler
地址:http://nwebcrawler.codeplex.com/
NWebCrawler是一款開源的C#網絡爬蟲程序更多NWebCrawler
SmartSpider
地址:http://www.softpedia.com/get/Internet/Download-Managers/SmartSpider.shtml
SmartSpider爬蟲引擎內核版,全新的設計理念,真正的極簡版本。
Abot
地址:https://github.com/sjdirect/abot
Abot是一個開源的.net爬蟲,速度快,易於使用和擴展。
xNet
地址:https://github.com/X-rus/xNet
這個一個俄國牛人寫的開源工具,爲啥說他強悍了,因爲他將所有Http協議的底層都實現了一遍,這有啥好處?只要你是寫爬蟲的,都會遇到一個讓人抓狂的問題,就是明明知道自己Http請求頭跟瀏覽器一模一樣了,爲啥還會獲取不到自己想要的數據。這時你如果使用HttpWebReaquest,你只能調試到GetRespone,底層的字節流是調試不到了。所以必須得有個更深入的底層組件,方便自己調試。
AngleSharp
地址:http://anglesharp.github.io/
解析HTML利器AngleSharp介紹解析HTML利器AngleSharp介紹AngleSharp是基於.NET(C#)開發的專門爲解析xHTML源碼的DLL組件。
HtmlAgilityPack
地址:http://htmlagilitypack.codeplex.com/
HtmlAgilityPack 是 .NET 下的一個 HTML 解析類庫。支持用 XPath 來解析 HTML 。命名空間: HtmlAgilityPack
CSQuery
地址:https://github.com/jamietre/CsQuery
CsQuery 犀利的html代碼分析庫,像jq一樣用c#處理html
5.C/C++爬蟲框架
open-source-search-engine
地址:https://github.com/gigablast/open-source-search-engine
基於C/C++開發的網絡爬蟲和搜索引擎.
Cobweb
地址:https://github.com/stewartmckee/cobweb
非常靈活,易於擴展的網絡爬蟲,可以單點部署使用.
upton
地址:https://github.com/propublica/upton
一個易於上手的爬蟲框架集合,支持CSS選擇器.
wombat
地址:https://github.com/felipecsl/wombat
基於Ruby天然的支持DSL的網絡爬蟲,易於提取網頁正文數據.
Spidr
地址:https://github.com/postmodern/spidr
全站數據採集,支持無限的網站鏈接地址採集.
Larbin
地址:http://larbin.sourceforge.net/download.html
larbin是一種開源的網絡爬蟲/網絡蜘蛛,由法國的年輕人Sébastien Ailleret獨立開發,用c++語言實現。larbin目的是能夠跟蹤頁面的url進行擴展的抓取,最後爲搜索引擎提供廣泛的數據來源。 Larbin只是一個爬蟲,也就是說larbin只抓取網頁,至於如何parse的事情則由用戶自己完成。另外,如何存儲到數據庫以及建立索引的事情 larbin也不提供。
larbin最初的設計也是依據設計簡單但是高度可配置性的原則,因此我們可以看到,一個簡單的larbin的爬蟲可以每天獲取500萬的網頁,實在是非常高效。
利用larbin,我們可以輕易的獲取/確定單個網站的所有聯結,甚至可以鏡像一個網站;也可以用它建立url 列表羣,例如針對所有的網頁進行 url retrive後,進行xml的聯結的獲取。或者是 mp3,或者定製larbin,可以作爲搜索引擎的信息的來源。
四.總結
爬蟲框架很多,如果有興趣我們自己也可以寫一些。我們不需要掌握每種主流的爬蟲框架,只需要根據自己擅長編寫語言,深入的掌握一種爬蟲框架即可。大多數爬蟲框架實現起來都大同小異。
如果你是python開發者我推薦你學習目前流行的scrapy,如果你是java開發者我推薦你學習webmagic。