scrapy複習筆記

因爲時不時老是用到這個爬蟲框架,每次用的時候,都重新看一下慕課網的視頻,感覺效率好低。再次記錄之,方便後續使用時回憶。

安裝scrapy

pip install scrapy

scrapy原理

在這裏插入圖片描述

scrapy engine: 各個模塊的數據通訊和傳遞

spiders:爬蟲,xpath組件。解析策略。處理所有的response。

scheduler:請求隊列,當引擎需要請求的時候,從調度器拿一個請求出來。

Downloader:發送請求並下載數據。

item pipelinie:處理spider解析後的數據,並且進行後續的處理。

Download Middleware:隱藏自己。

Spider Middleware:可以自定義擴展的組件。對response和request進行修改。

新建scrapy項目

在指定文件夾輸入以下命令

scrapy startproject <Project name>

生成爬蟲

scrapy genspider douban_spider movie.douban.com

明確爬取的數據

在items.py文件中修改

編寫spider

執行爬蟲 (在項目文件夾下執行如下命令)

scrapy crawl <spider name>

設置User-Agent

瀏覽器按F12,找到network那欄,刷新一下網頁,點擊Name下第一個,在header欄往下拉,找到最後一個User-Agent

複製這裏的User-Agent,在settings.py文件下修改。

簡單測試一下爬取的網頁信息

def parse(self, response):
    print(response.text)
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章