【網絡爬蟲】【python】網絡爬蟲（一）：python爬蟲概述

原創

2020-07-03 10:57

python爬蟲的實現方式：

1.簡單點的urllib2 + regex，足夠了，可以實現最基本的網頁下載功能。實現思路就是前面java版爬蟲差不多，把網頁拉回來，再正則regex解析信息……總結起來，兩個函數：urllibw.urlopen()和re.compile()。其實對於正則解析html網頁，python同樣有和jsoup類似的工具包——BeautifulSoup，用好了同樣比正則省事多了。同時BeautifulSoup還針對非結構化html標籤有清洗功能，比如網頁中標籤不完整，有些源代碼中出現起始標籤而沒有結束標籤，html標籤不完整會影響抓取結構化數據，通過BeautifulSoup先對源代碼清洗，再分析獲取內容。

進階版本：異步爬取可以使用多線程、效率更高可以採用非阻塞方案tornado和curl可以實現非阻塞的下載。

2.成熟的開源爬蟲框架scrapy，後邊系列文章再寫吧……不再多說了，網上對於這兩種實現方式也有很多demo項目。

其實關於如何學習python爬蟲，知乎有個話題《如何入門Python爬蟲》：

http://www.zhihu.com/question/20899988

python爬蟲系列部分先幾個簡單的例子開始，python工具庫urllib2很多庫函數已經幫我們做了之前java實現版的某些繁重工作和一些步驟，所以沒必要再重複勞動。之後會再介紹scrapy框架。

關於scrapy，一個優秀的基於twisted開源爬蟲框架，並且作爲GSoC (Google Summer of Code)，這個開源項目也是有很高的關注度的，該項目的版本也在不斷更新。其實對於scrapy框架的學習，更多的可以參見官方文檔，在這裏也順便推薦一箇中文的scrapy學習資料：http://scrapy-chs.readthedocs.org/zh_CN/0.24/index.html ，來自github開源社區的幾位學生，目前該文檔大部分已經翻譯完成，翻譯質量不錯，學scrapy的同時可以看下。

原創文章，轉載請註明出處：http://blog.csdn.net/dianacody/article/details/39726007

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【網絡爬蟲】【python】網絡爬蟲（一）：python爬蟲概述

MySQL 分庫分表方案，總結太全了。。

Qt/C++音視頻開發71-指定mjpeg/h264格式採集本地攝像頭/存儲文件到mp4/設備推流/採集推流

WPF開源輕便、快速的桌面啓動器

【HBase】HBase筆記：HBase的Region機制

【網絡爬蟲】【java】微博爬蟲（二）：如何抓取HTML頁面及HttpClient使用

linux創建守護進程

【網絡爬蟲】【java】微博爬蟲（四）：數據處理——jsoup工具解析html、dom4j讀寫xml

打包python文件爲exe文件（PyInstaller工具使用方法）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結