[Python]網絡爬蟲(11):亮劍!爬蟲框架小抓抓Scrapy閃亮登場!

轉自:http://blog.csdn.net/pleasecallmewhy/article/details/19354723

前面十章爬蟲筆記陸陸續續記錄了一些簡單的Python爬蟲知識,

用來解決簡單的貼吧下載,績點運算自然不在話下。

不過要想批量下載大量的內容,比如知乎的所有的問答,那便顯得遊刃不有餘了點。

於是乎,爬蟲框架Scrapy就這樣出場了!

Scrapy = Scrach+Python,Scrach這個單詞是抓取的意思,

暫且可以叫它:小抓抓吧。


小抓抓的官網地址:點我點我


那麼下面來簡單的演示一下小抓抓Scrapy的安裝流程。

具體流程參照:官網教程

友情提醒:一定要按照Python的版本下載,要不然安裝的時候會提醒找不到Python。建議大家安裝32位是因爲有些版本的必備軟件64位不好找。


1.安裝Python(建議32位)

建議安裝Python2.7.x,3.x貌似還不支持。

安裝完了記得配置環境,將python目錄和python目錄下的Scripts目錄添加到系統環境變量的Path裏。

在cmd中輸入python如果出現版本信息說明配置完畢。


2.安裝lxml

lxml是一種使用 Python 編寫的庫,可以迅速、靈活地處理 XML。點擊這裏選擇對應的Python版本安裝。


3.安裝setuptools

用來安裝egg文件,點擊這裏下載python2.7的對應版本的setuptools。


4.安裝zope.interface

可以使用第三步下載的setuptools來安裝egg文件,現在也有exe版本,點擊這裏下載。


5.安裝Twisted

Twisted是用Python實現的基於事件驅動的網絡引擎框架,點擊這裏下載。


6.安裝pyOpenSSL

pyOpenSSL是Python的OpenSSL接口,點擊這裏下載。


7.安裝win32py

提供win32api,點擊這裏下載


8.安裝Scrapy

終於到了激動人心的時候了!安裝了那麼多小部件之後終於輪到主角登場。

直接在cmd中輸入easy_install scrapy回車即可。


9.檢查安裝

打開一個cmd窗口,在任意位置執行scrapy命令,得到下列頁面,表示環境配置成功。

發佈了13 篇原創文章 · 獲贊 21 · 訪問量 16萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章