scrapy安装、scrapy流程

一、了解scrapy

1.scrapy安装

scrapy支持Python2.7和python3.4以上版本。

python包可以用全局安装（也称为系统范围），也可以安装咋用户空间中。

Windows
一.直接安装
1.在https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下载对应的Twisted的版本文件

在命令行进入到Twisted的目录执行pip install 加Twisted文件名

3.执行pip install scrapy
二.annaconda 下安装
1.安装conda
conda旧版本 https://docs.anaconda.com/anaconda/packages/oldpkglists/
安装方法 https://blog.csdn.net/ychgyyn/article/details/82119201

安装scrapy conda install scrapy

Ubuntu 14.04或以上安装
scrapy目前正在使用最新版的lxml，twisted和pyOpenSSL进行测试，并且与最近的Ubuntu发行版兼容。但它也支持旧版本的Ubuntu，比如Ubuntu14.04，尽管可能存在TLS连接问题。

三、Ubuntu安装注意事项
不要使用 python-scrapyUbuntu提供的软件包，它们通常太旧而且速度慢，无法赶上最新的Scrapy。
要在Ubuntu（或基于Ubuntu）系统上安装scrapy，您需要安装这些依赖项：
sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
如果你想在python3上安装scrapy，你还需要Python3的开发头文件：
sudo apt-get install python3-dev
在virtualenv中，你可以使用pip安装Scrapy：
pip install scrapy

2.基本认识

Scrapy是纯Python开发的一个高效,结构化的网页抓取框架；

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。 Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试 Scrapy使用了Twisted 异步网络库来处理网络通讯。

特点

1.为了更利于我们将精力集中
在请求与解析上
2.企业级的要求

3.运行流程

上图显示了Scrapy框架的体系结构及其组件，以及系统内部发生的数据流（由红色的箭头显示。）
Scrapy中的数据流由执行引擎控制,流程如下：

首先从爬虫获取初始的请求
将请求放入调度模块，然后获取下一个需要爬取的请求
调度模块返回下一个需要爬取的请求给引擎
引擎将请求发送给下载器，依次穿过所有的下载中间件
一旦页面下载完成，下载器会返回一个响应包含了页面数据，然后再依次穿过所有的下载中间件。
引擎从下载器接收到响应，然后发送给爬虫进行解析，依次穿过所有的爬虫中间件
爬虫处理接收到的响应，然后解析出item和生成新的请求，并发送给引擎
引擎将已经处理好的item发送给管道组件，将生成好的新的请求发送给调度模块，并请求下一个请求
该过程重复，直到调度程序不再有请求为止。

4.中间键

settings文件

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

scrapy安装、scrapy流程

一、了解scrapy

1.scrapy安装

2.基本认识

特点

3.运行流程

4.中间键

Java的字符串使用方法

Java邏輯思維題

團隊法則100條

md5使用方法

python如何操作js代碼

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結