python Scrapy 框架做爬蟲 ——很好的教程

寫在前面:

因爲網絡上關於Scrapy的使用經驗已經非常多,本文無意重複或複製,只做思路導引和資源索引之用。如果你一頭扎進來正毫無頭緒,那麼恭喜你,你找到了路標!

非常感謝Young-hz所寫的Scrapy框架探索系列博客,在這裏主要引用了他的博客鏈接。


一,初識爬蟲

因爲一個興趣項目,需要爬取網上的數據,因而接觸學習了網絡爬蟲。爬蟲的思路非常清晰:

按照鏈接下載網頁-->提取興趣內容-->提取需要訪問的鏈接

重複直到爬完全部內容。大家可以想到,要實現以上步驟是多麼簡單的事情。但是任何簡單問題想要做到令人滿意(魯棒、細緻周到)總是要做大量的工作。因而一個設計合理,功能全面,節省我們很多時間的框架是非常必要的。

我想這就是Scrapy框架被廣泛應用的原因。


二,Scrapy框架

框架介紹參照官網,但是作爲初步瞭解的話,它的消息有點多和亂,這篇文章更推薦大家閱讀入門。

入門文章:http://blog.csdn.net/u012150179/article/details/32343635

到目前爲止,大家應該知道,什麼是Scrapy,以及它應該可以做什麼事情。不用瞭解任何代碼,接下來把環境搭好吧!

linux系統下安裝Scrapy上述文章都已經講到,windows下安裝Scrapy這裏有非常詳細的步驟。

Windows下安裝Scrapy:http://www.cnblogs.com/txw1958/archive/2012/07/12/scrapy_installation_introduce.html


三,跑第一個爬蟲-->tutorial

搭建好環境,對Scrapy有了初步印象,下面就要親自試一下了。官網的tutorial是非常不錯,按照這篇比官網還詳細的文章跑一下tutorial吧。

第一個Scrapy爬蟲:http://blog.csdn.net/pleasecallmewhy/article/details/19642329

大家現在知道什麼是item,spider該定義哪些部分,以及XPath是什麼東西了。但是pipeline是什麼還沒用過,setting文件也沒有碰。下面這篇文章比第一個爬蟲多了一點點東西,做下來應該可以瞭解到全部文件的用途了。

進階的第一個爬蟲:http://blog.csdn.net/u012150179/article/details/32911511


四,徹底認清Scrapy

明明幾十行搞定的功能,爲什麼要搞一堆文件來做呢?這篇文章很好的介紹了Scrapy框架,詳細介紹了Scrapy的數據流。

Scrapy框架核心架構:http://blog.csdn.net/u012150179/article/details/34441655


其實到目前的程度,大家已經可以扔掉柺杖自己走路了。讀官網的文檔或者按照自己的需要在網上查找問題解決辦法。下面我把有用的文章列出來,以備不時之需。

xpath教程:http://www.w3school.com.cn/xpath/

中文保存:http://blog.csdn.net/u012150179/article/details/34450547

爬取多網頁:http://blog.csdn.net/u012150179/article/details/34486677

通用爬蟲CrawlSpider:http://blog.csdn.net/u012150179/article/details/34486677

防止爬蟲被ban:http://blog.csdn.net/u012150179/article/details/35774323


希望大家因爲我的文章,省掉了很多上手Scrapy的時間,good luck 。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章