Scrapy 是用 Python 實現的一個爲了爬取網站數據、提取結構性數據而編寫的應用框架。
Scrapy 常應用在包括數據挖掘,信息處理或存儲歷史數據等一系列的程序中。
通常我們可以很簡單的通過 Scrapy 框架實現一個爬蟲,抓取指定網站的內容或圖片。
(一)運作流程
1.首先Spiders(爬蟲)將需要發送請求的url(requests)經ScrapyEngine(引擎)交給Scheduler(調度器)。
2.Scheduler(排序,入隊)處理後,經ScrapyEngine(引擎)【DownloaderMiddlewares(下載中間件,可以附帶User_Agent, Proxy代理等)】交給Downloader。
3.Downloader向互聯網發送請求,並接收下載響應(response)。將響應(response)【經ScrapyEngine(引擎),SpiderMiddlewares(spider中間件)】交給Spiders。
4.Spiders處理response,提取數據並將數據經ScrapyEngine(引擎)交給ItemPipeline保存(可以是本地,可以是數據庫)。
5.提取url重新經ScrapyEngine(引擎)交給Scheduler(調度器)進行下一個循環。直到無Url請求程序停止結束。