Scrapy 完整流程

根據上一篇博客,對Scrapy框架更加細化進行了處理 

Scrapy 官方中文檔 : https://scrapy-chs.readthedocs.io/zh_CN/0.24/

1.新增了對請求發送及接收的處理機制

2.梳理處理方式

更改了目錄結構

items :   對象是種簡單的容器,保存了爬取到得數據

middlewares :  下載器中間件是介於Scrapy的request/response處理的鉤子框架。 是用於全局修改Scrapy request和response的一個輕量、底層的系統。

pipelines : 當Item在Spider中被收集之後,它將會被傳遞到Item Pipeline,一些組件會按照一定的順序執行對Item的處理

 

setting : 

DOWNLOADER_MIDDLEWARES : 保存項目中啓用的下載中間件及其順序的字典

ITEM_PIPELINES : 保存項目中啓用的pipeline及其順序的字典

middlewares :  針對於不同平臺 middlewares 有不同的處理方式

 

pipelines:   

  • 清理HTML數據
  • 驗證爬取的數據(檢查item包含某些字段)
  • 查重(並丟棄)
  • 將爬取結果保存到數據庫中

item:定義數據實體格式

demo_two:

完整的爬蟲流程結束

 

針對於cookie的獲取方式:

可以通過 selenium 進行自動登錄,將獲取的cookie值放在redis中,腳本可以從redis中獲取cookie值

 

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章