爬蟲scrapy框架運行流程

Scrapy 是用 Python 實現的一個爲了爬取網站數據、提取結構性數據而編寫的應用框架。

Scrapy 常應用在包括數據挖掘,信息處理或存儲歷史數據等一系列的程序中。

通常我們可以很簡單的通過 Scrapy 框架實現一個爬蟲,抓取指定網站的內容或圖片。

 

(一)運作流程

1.首先Spiders(爬蟲)將需要發送請求的url(requests)經ScrapyEngine(引擎)交給Scheduler(調度器)。

2.Scheduler(排序,入隊)處理後,經ScrapyEngine(引擎)【DownloaderMiddlewares(下載中間件,可以附帶User_Agent, Proxy代理等)】交給Downloader。

3.Downloader向互聯網發送請求,並接收下載響應(response)。將響應(response)【經ScrapyEngine(引擎),SpiderMiddlewares(spider中間件)】交給Spiders。     

4.Spiders處理response,提取數據並將數據經ScrapyEngine(引擎)交給ItemPipeline保存(可以是本地,可以是數據庫)。

5.提取url重新經ScrapyEngine(引擎)交給Scheduler(調度器)進行下一個循環。直到無Url請求程序停止結束。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章