初識scrapy框架的介紹和命令行使用

一、介紹
Scrapy一個開源和協作的框架，其最初是爲了頁面抓取 (更確切來說, 網絡抓取 )所設計的，使用它可以以快速、簡單、可擴展的方式從網站中提取所需的數據。但目前Scrapy的用途十分廣泛，可用於如數據挖掘、監測和自動化測試等領域，也可以應用在獲取API所返回的數據(例如 Amazon Associates Web Services ) 或者通用的網絡爬蟲。

Scrapy 是基於twisted框架開發而來，twisted是一個流行的事件驅動的python網絡框架。因此Scrapy使用了一種非阻塞（又名異步）的代碼來實現併發。整體架構大致如下

Components：

引擎(EGINE)
引擎負責控制系統所有組件之間的數據流，並在某些動作發生時觸發事件。有關詳細信息，請參見上面的數據流部分。

調度器(SCHEDULER)
用來接受引擎發過來的請求, 壓入隊列中, 並在引擎再次請求的時候返回. 可以想像成一個URL的優先級隊列, 由它來決定下一個要抓取的網址是什麼, 同時去除重複的網址

下載器(DOWLOADER)
用於下載網頁內容, 並將網頁內容返回給EGINE，下載器是建立在twisted這個高效的異步模型上的

爬蟲(SPIDERS)
SPIDERS是開發人員自定義的類，用來解析responses，並且提取items，或者發送新的請求

項目管道(ITEM PIPLINES)
在items被提取後負責處理它們，主要包括清理、驗證、持久化（比如存到數據庫）等操作

下載器中間件(Downloader Middlewares)
位於Scrapy引擎和下載器之間，主要用來處理從EGINE傳到DOWLOADER的請求request，已經從DOWNLOADER傳到EGINE的響應response，你可用該中間件做以下幾件事
process a request just before it is sent to the Downloader (i.e. right before Scrapy sends the request to the website);
change received response before passing it to a spider;
send a new Request instead of passing received response to a spider;
pass response to a spider without fetching a web page;
silently drop some requests.

爬蟲中間件(Spider Middlewares)
位於EGINE和SPIDERS之間，主要工作是處理SPIDERS的輸入（即responses）和輸出（即requests）

二、安裝

#Windows平臺
1、pip3 install wheel #安裝後，便支持通過wheel文件安裝軟件，wheel文件官網：https://www.lfd.uci.edu/~gohlke/pythonlibs
3、pip3 install lxml
4、pip3 install pyopenssl
5、下載並安裝pywin32：https://sourceforge.net/projects/pywin32/files/pywin32/
6、下載twisted的wheel文件：http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
7、執行pip3 install 下載目錄\Twisted-17.9.0-cp36-cp36m-win_amd64.whl
8、pip3 install scrapy

#Linux平臺
1、pip3 install scrapy

三、命令行工具

#1 查看幫助
    scrapy -h
    scrapy <command> -h

#2 有兩種命令：其中Project-only必須切到項目文件夾下才能執行，而Global的命令則不需要
    Global commands:
        startproject #創建項目
        // scrapy startproject Amazon
        genspider    #創建爬蟲程序  
        // scrapy genspider amazon https://www.amazon.cm
        settings     #如果是在項目目錄下，則得到的是該項目的配置
        runspider    #運行一個獨立的python文件，不必創建項目
        shell        #scrapy shell url地址  在交互式調試，如選擇器規則正確與否
        fetch        #獨立於程單純地爬取一個頁面，可以拿到請求頭
        view         #下載完畢後直接彈出瀏覽器，以此可以分辨出哪些數據是ajax請求
        version      #scrapy version 查看scrapy的版本，scrapy version -v查看scrapy依賴庫的版本
    Project-only commands:
        crawl        #運行爬蟲，必須創建項目纔行，確保配置文件中ROBOTSTXT_OBEY = False
        check        #檢測項目中有無語法錯誤
        list         #列出項目中所包含的爬蟲名
        edit         #編輯器，一般不用
        parse        #scrapy parse url地址 --callback 回調函數  #以此可以驗證我們的回調函數是否正確
        bench        #scrapy bentch壓力測試

#3 官網鏈接
    https://docs.scrapy.org/en/latest/topics/commands.html

命令行示範用法：

#1、執行全局命令：請確保不在某個項目的目錄下，排除受該項目配置的影響
scrapy startproject MyProject

cd MyProject
scrapy genspider baidu www.baidu.com

scrapy settings --get XXX #如果切換到項目目錄下，看到的則是該項目的配置

scrapy runspider baidu.py

scrapy shell https://www.baidu.com
    response
    response.status
    response.body
    view(response)
    
scrapy view https://www.taobao.com #如果頁面顯示內容不全，不全的內容則是ajax請求實現的，以此快速定位問題

scrapy fetch --nolog --headers https://www.taobao.com

scrapy version #scrapy的版本

scrapy version -v #依賴庫的版本


#2、執行項目命令：切到項目目錄下
scrapy crawl baidu
scrapy check
scrapy list
scrapy parse http://quotes.toscrape.com/ --callback parse
scrapy bench

項目目錄：

project_name/
   scrapy.cfg
   project_name/
       __init__.py
       items.py
       pipelines.py
       settings.py
       spiders/
           __init__.py
           爬蟲1.py
           爬蟲2.py
           爬蟲3.py

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

初識scrapy框架的介紹和命令行使用

Spring Cloud 部署時如何使用 Kubernetes 作爲註冊中心和配置中心

Redis基本簡介及命令

前端開發語言學習-筆記2-常見標籤和淺析SEO

前端開發語言學習-筆記4-css浮動

python爬蟲中常用的異步模塊：asyncio aiohttp twisted tornado grequests

爬蟲-selenium模塊介紹

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結