爬蟲scrapy框架運行流程

原創

2019-06-11 12:19

Scrapy 是用 Python 實現的一個爲了爬取網站數據、提取結構性數據而編寫的應用框架。

Scrapy 常應用在包括數據挖掘，信息處理或存儲歷史數據等一系列的程序中。

通常我們可以很簡單的通過 Scrapy 框架實現一個爬蟲，抓取指定網站的內容或圖片。

（一）運作流程

1.首先Spiders（爬蟲）將需要發送請求的url(requests)經ScrapyEngine（引擎）交給Scheduler（調度器）。

2.Scheduler（排序，入隊）處理後，經ScrapyEngine（引擎）【DownloaderMiddlewares(下載中間件，可以附帶User_Agent, Proxy代理等)】交給Downloader。

3.Downloader向互聯網發送請求，並接收下載響應（response）。將響應（response）【經ScrapyEngine（引擎），SpiderMiddlewares(spider中間件)】交給Spiders。　　　　　

4.Spiders處理response，提取數據並將數據經ScrapyEngine（引擎）交給ItemPipeline保存（可以是本地，可以是數據庫）。

5.提取url重新經ScrapyEngine（引擎）交給Scheduler（調度器）進行下一個循環。直到無Url請求程序停止結束。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

selenium自動化模擬

代碼如下: pip install selenium from selenium import webdriver import time # 創建一個瀏覽器對象 path = r'E:\360\Google\Chrome\chrom

2020-07-04 18:47:39

飛言情讀物抓取---bs4使用

代碼如下: import os import urllib.request import time from bs4 import BeautifulSoup def get_request(url): headers =

2020-07-04 18:47:39

Cookie 和 Session深入理解

我在做面試官的時候，曾經問過很多朋友這個問題： Cookie 和 Session 有什麼區別呢？大部分的面試者應該都可以說上一兩句，比如：什麼是 Cookie？什麼是 Session？兩者的區別等。但如果再往深入探討的話，就慢慢

weixin_41734687

2020-07-08 01:20:46

多線程爬取豬八戒網站

此項目是使用多線程爬取豬八戒網址it類的所有公司信息豬八戒主頁網址：https://guangzhou.zbj.com/ 我們要爬的是it這個大類的這10小類通過檢查我們發現，所有的網址都是放在帶有class=‘cha

中国移动。4G

2020-07-07 04:41:53

類vgg網絡實現端到端識別驗證碼

項目起因大二在做weibo爬蟲抓取用於情感分析語料時遇到了模擬登陸的問題，其中關鍵的一環就是驗證碼識別。由於當時專業知識有限選擇了對接打碼平臺來解決這個痛點，在時間不充分情況下這是效率最高的方法。但這也在我心中埋下了一個小小的種

一条死在减速带的大鱼

2020-07-06 08:00:11

天涯論壇搜索爬蟲

需求：獲取天涯論壇上某關鍵字搜索出來的所有頁面裏面的每個帖子的樓主id和評論id 獲取id間的對應關係，用於粒子羣算法。（實際上已匹配出用戶id，評論內容，用戶名等信息，需要的話自己改一下return 就行了）分析：天涯論壇所

一条死在减速带的大鱼

2020-07-06 08:00:11

驗證西刺代理ip有效性

# -*- coding: utf-8 -*- """ Created on Wed Nov 8 14:50:04 2017 @author: m

2020-07-04 21:13:49

urllib使用及代理池

import urllib.request import re import time import os headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0;

2020-07-04 18:47:39

selenium 常用方法介紹

獲取當前頁面的url 方法：current_url 實例：driver.current_url 獲取元素座標方法：location 解釋：首先查找到你要獲取元素的，然後調用location方法實例：driver.find

2020-07-04 18:47:39

spider動態頁面抓取方式

中間件重寫, 登錄起始開啓有頭模擬,保存cookies後,開啓無頭模擬示例: class SeleniumDownloaderMiddleware(object): def __init__(self):

2020-07-04 18:47:39

手動驗證碼的登錄操作

import requests from bs4 import BeautifulSoup # 要使用會話。 s = requests.Session() url = 'https://so.gushiwen.org/user/log

2020-07-04 18:47:29

中國知網爬取問題（1）

按順序在瀏覽器上訪問可以得到正確的頁面，但在spider中使用時卻得不到。。。 1 http://200.96.97.90/grid2008/request/search.aspx?PageName=ASP.brief_library

2020-07-04 04:19:09

豆瓣top250

文章目錄1. 保存excel2. 保存mysql3. 保存mongodb4. 可視化（flask，echarts） 1. 保存excel import requests import pandas from lxml impor

保护我方豆豆

2020-07-03 20:36:43

【網絡爬蟲】【python】網絡爬蟲（四）：scrapy爬蟲框架（架構、win/linux安裝、文件結構）

scrapy框架的學習，目前個人覺得比較詳盡的資料主要有兩個： 1.官方教程文檔、scrapy的github wiki； 2.一個很好的scrapy中文文檔：http://scrapy-chs.readthedocs.or

2020-07-03 10:57:29

ubuntu16.04下安裝和配置selenium

Install chrome. sudo apt-get update sudo apt-get install -y unzip xvfb libxi6 libgconf-2-4 sudo apt-get install def

2020-07-02 14:22:12

24小時熱門文章

最新文章

最新評論文章