因爲時不時老是用到這個爬蟲框架,每次用的時候,都重新看一下慕課網的視頻,感覺效率好低。再次記錄之,方便後續使用時回憶。
安裝scrapy
pip install scrapy
scrapy原理
scrapy engine: 各個模塊的數據通訊和傳遞
spiders:爬蟲,xpath組件。解析策略。處理所有的response。
scheduler:請求隊列,當引擎需要請求的時候,從調度器拿一個請求出來。
Downloader:發送請求並下載數據。
item pipelinie:處理spider解析後的數據,並且進行後續的處理。
Download Middleware:隱藏自己。
Spider Middleware:可以自定義擴展的組件。對response和request進行修改。
新建scrapy項目
在指定文件夾輸入以下命令
scrapy startproject <Project name>
生成爬蟲
scrapy genspider douban_spider movie.douban.com
明確爬取的數據
在items.py文件中修改
編寫spider
執行爬蟲 (在項目文件夾下執行如下命令)
scrapy crawl <spider name>
設置User-Agent
瀏覽器按F12,找到network那欄,刷新一下網頁,點擊Name下第一個,在header欄往下拉,找到最後一個User-Agent
複製這裏的User-Agent,在settings.py文件下修改。
簡單測試一下爬取的網頁信息
def parse(self, response):
print(response.text)