【網絡爬蟲】【python】網絡爬蟲(一):python爬蟲概述

        python爬蟲的實現方式:

        1.簡單點的urllib2 + regex,足夠了,可以實現最基本的網頁下載功能。實現思路就是前面java版爬蟲差不多,把網頁拉回來,再正則regex解析信息……總結起來,兩個函數:urllibw.urlopen()和re.compile()。其實對於正則解析html網頁,python同樣有和jsoup類似的工具包——BeautifulSoup,用好了同樣比正則省事多了。同時BeautifulSoup還針對非結構化html標籤有清洗功能,比如網頁中標籤不完整,有些源代碼中出現起始標籤而沒有結束標籤,html標籤不完整會影響抓取結構化數據,通過BeautifulSoup先對源代碼清洗,再分析獲取內容。

        進階版本:異步爬取可以使用多線程、效率更高可以採用非阻塞方案tornado和curl可以實現非阻塞的下載。

        2.成熟的開源爬蟲框架scrapy,後邊系列文章再寫吧……不再多說了,網上對於這兩種實現方式也有很多demo項目。

        其實關於如何學習python爬蟲,知乎有個話題《如何入門Python爬蟲》:

        http://www.zhihu.com/question/20899988

        python爬蟲系列部分先幾個簡單的例子開始,python工具庫urllib2很多庫函數已經幫我們做了之前java實現版的某些繁重工作和一些步驟,所以沒必要再重複勞動。之後會再介紹scrapy框架。

        關於scrapy,一個優秀的基於twisted開源爬蟲框架,並且作爲GSoC (Google Summer of Code),這個開源項目也是有很高的關注度的,該項目的版本也在不斷更新。其實對於scrapy框架的學習,更多的可以參見官方文檔,在這裏也順便推薦一箇中文的scrapy學習資料:http://scrapy-chs.readthedocs.org/zh_CN/0.24/index.html,來自github開源社區的幾位學生,目前該文檔大部分已經翻譯完成,翻譯質量不錯,學scrapy的同時可以看下。


原創文章,轉載請註明出處:http://blog.csdn.net/dianacody/article/details/39726007


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章