爬蟲 對比Java和Python

網絡爬蟲

網絡爬蟲(又稱爲網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱爲網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。通俗講 就是將你在網頁上看到的信息通過代碼程序自動獲取到本地的過程。

 

常用框架:

java:webmagic,http://webmagic.io/docs/zh/

python:scrapy,http://blog.csdn.net/sunnyxiaohu/article/details/50787430

 

python 

網絡功能強大,模擬登陸、解析javascript,短處是網頁解析 
python寫起程序來真的很便捷,著名的python爬蟲有scrapy等

python流行起來,從某程序員聚集的網站來看 python爬蟲教程滿天飛。著名的scrapy便是python開發的。 
python開發爬蟲非常靈活,最適合一次性採集數據,寫幾行代碼就可以把初步結構化的數據庫入庫。urllib、requests、beautifulsoup等模塊可以輕鬆構建一個基本的採集程序。 
使用python時會遇到中文亂碼問題,window開發 Linux 部署亂碼問題會讓你感覺更棘手,最好統一開發部署環境,有錢公司用macbookpro,沒錢裝個ubuntu。

python遇到複雜的js是表現和java差不多,你都會想自己實現一個瀏覽器,phantomjs 不夠穩定,中介再加上一層selenium 寫寫demo還可以

java

java有很多解析器,對網頁的解析支持很好,缺點是網絡部分 
java開源爬蟲非常多,著名的如 nutch 國內有webmagic 
java優秀的解析器有htmlparser、jsoup

 

對於一般性的需求無論java還是python都可以勝任。

如需要模擬登陸、對抗防採集選擇python更方便些,如果需要處理複雜的網頁,解析網頁內容生成結構化數據或者對網頁內容精細的解析則可以選擇java。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章