根據上一篇博客,對Scrapy框架更加細化進行了處理
Scrapy 官方中文檔 : https://scrapy-chs.readthedocs.io/zh_CN/0.24/
1.新增了對請求發送及接收的處理機制
2.梳理處理方式
更改了目錄結構
items : 對象是種簡單的容器,保存了爬取到得數據
middlewares : 下載器中間件是介於Scrapy的request/response處理的鉤子框架。 是用於全局修改Scrapy request和response的一個輕量、底層的系統。
pipelines : 當Item在Spider中被收集之後,它將會被傳遞到Item Pipeline,一些組件會按照一定的順序執行對Item的處理
setting :
DOWNLOADER_MIDDLEWARES : 保存項目中啓用的下載中間件及其順序的字典
ITEM_PIPELINES : 保存項目中啓用的pipeline及其順序的字典
middlewares : 針對於不同平臺 middlewares 有不同的處理方式
pipelines:
- 清理HTML數據
- 驗證爬取的數據(檢查item包含某些字段)
- 查重(並丟棄)
- 將爬取結果保存到數據庫中
item:定義數據實體格式
demo_two:
完整的爬蟲流程結束
針對於cookie的獲取方式:
可以通過 selenium 進行自動登錄,將獲取的cookie值放在redis中,腳本可以從redis中獲取cookie值