python Scrapy 框架做爬蟲 ——很好的教程

原創

Pory

2020-02-23 12:09

寫在前面：

因爲網絡上關於Scrapy的使用經驗已經非常多，本文無意重複或複製，只做思路導引和資源索引之用。如果你一頭扎進來正毫無頭緒，那麼恭喜你，你找到了路標！

非常感謝Young-hz所寫的Scrapy框架探索系列博客，在這裏主要引用了他的博客鏈接。

一，初識爬蟲

因爲一個興趣項目，需要爬取網上的數據，因而接觸學習了網絡爬蟲。爬蟲的思路非常清晰：

按照鏈接下載網頁-->提取興趣內容-->提取需要訪問的鏈接

重複直到爬完全部內容。大家可以想到，要實現以上步驟是多麼簡單的事情。但是任何簡單問題想要做到令人滿意（魯棒、細緻周到）總是要做大量的工作。因而一個設計合理，功能全面，節省我們很多時間的框架是非常必要的。

我想這就是Scrapy框架被廣泛應用的原因。

二，Scrapy框架

框架介紹參照官網，但是作爲初步瞭解的話，它的消息有點多和亂，這篇文章更推薦大家閱讀入門。

入門文章：http://blog.csdn.net/u012150179/article/details/32343635

到目前爲止，大家應該知道，什麼是Scrapy，以及它應該可以做什麼事情。不用瞭解任何代碼，接下來把環境搭好吧！

linux系統下安裝Scrapy上述文章都已經講到，windows下安裝Scrapy這裏有非常詳細的步驟。

Windows下安裝Scrapy：http://www.cnblogs.com/txw1958/archive/2012/07/12/scrapy_installation_introduce.html

三，跑第一個爬蟲-->tutorial

搭建好環境，對Scrapy有了初步印象，下面就要親自試一下了。官網的tutorial是非常不錯，按照這篇比官網還詳細的文章跑一下tutorial吧。

第一個Scrapy爬蟲：http://blog.csdn.net/pleasecallmewhy/article/details/19642329

大家現在知道什麼是item，spider該定義哪些部分，以及XPath是什麼東西了。但是pipeline是什麼還沒用過，setting文件也沒有碰。下面這篇文章比第一個爬蟲多了一點點東西，做下來應該可以瞭解到全部文件的用途了。

進階的第一個爬蟲：http://blog.csdn.net/u012150179/article/details/32911511

四，徹底認清Scrapy

明明幾十行搞定的功能，爲什麼要搞一堆文件來做呢？這篇文章很好的介紹了Scrapy框架，詳細介紹了Scrapy的數據流。

Scrapy框架核心架構:http://blog.csdn.net/u012150179/article/details/34441655

其實到目前的程度，大家已經可以扔掉柺杖自己走路了。讀官網的文檔或者按照自己的需要在網上查找問題解決辦法。下面我把有用的文章列出來，以備不時之需。

xpath教程：http://www.w3school.com.cn/xpath/

中文保存：http://blog.csdn.net/u012150179/article/details/34450547

爬取多網頁：http://blog.csdn.net/u012150179/article/details/34486677

通用爬蟲CrawlSpider：http://blog.csdn.net/u012150179/article/details/34486677

防止爬蟲被ban：http://blog.csdn.net/u012150179/article/details/35774323

希望大家因爲我的文章，省掉了很多上手Scrapy的時間，good luck 。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

python Scrapy 框架做爬蟲 ——很好的教程

linux安裝cuda和cudnn

測試人員都是畫畫大神，讓我看看誰還不會用代碼圖？

Object.values()對象遍歷

我拍了拍Redis，被移出了羣聊···

網絡現代化通向雲原生應用的高速公路

面試官：說說你對序列化的理解

我宣佈，這是我找到的史上AI最全論文體系！

Python正則表達式指南

Python Version 2.7 required which was not found in the registry

python Scrapy 框架做爬蟲 ——很好的教程

機器學習中的數學-模型組合(Model Combining)之Boosting與Gradient Boosting

VS 2010下 LINK : fatal error LNK1123: 轉換到 COFF 期間失敗: 文件無效或損壞，終極解決辦法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結