scrapy安裝、scrapy流程

一、瞭解scrapy

1.scrapy安裝

scrapy支持Python2.7和python3.4以上版本。

python包可以用全局安裝（也稱爲系統範圍），也可以安裝咋用戶空間中。

Windows
一.直接安裝
1.在https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下載對應的Twisted的版本文件

在命令行進入到Twisted的目錄執行pip install 加Twisted文件名

3.執行pip install scrapy
二.annaconda 下安裝
1.安裝conda
conda舊版本 https://docs.anaconda.com/anaconda/packages/oldpkglists/
安裝方法 https://blog.csdn.net/ychgyyn/article/details/82119201

安裝scrapy conda install scrapy

Ubuntu 14.04或以上安裝
scrapy目前正在使用最新版的lxml，twisted和pyOpenSSL進行測試，並且與最近的Ubuntu發行版兼容。但它也支持舊版本的Ubuntu，比如Ubuntu14.04，儘管可能存在TLS連接問題。

三、Ubuntu安裝注意事項
不要使用 python-scrapyUbuntu提供的軟件包，它們通常太舊而且速度慢，無法趕上最新的Scrapy。
要在Ubuntu（或基於Ubuntu）系統上安裝scrapy，您需要安裝這些依賴項：
sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
如果你想在python3上安裝scrapy，你還需要Python3的開發頭文件：
sudo apt-get install python3-dev
在virtualenv中，你可以使用pip安裝Scrapy：
pip install scrapy

2.基本認識

Scrapy是純Python開發的一個高效,結構化的網頁抓取框架；

Scrapy是一個爲了爬取網站數據，提取結構性數據而編寫的應用框架。其最初是爲了頁面抓取 (更確切來說, 網絡抓取 )所設計的，也可以應用在獲取API所返回的數據(例如 Amazon Associates Web Services ) 或者通用的網絡爬蟲。 Scrapy用途廣泛,可以用於數據挖掘、監測和自動化測試 Scrapy使用了Twisted 異步網絡庫來處理網絡通訊。

特點

1.爲了更利於我們將精力集中
在請求與解析上
2.企業級的要求

3.運行流程

上圖顯示了Scrapy框架的體系結構及其組件，以及系統內部發生的數據流（由紅色的箭頭顯示。）
Scrapy中的數據流由執行引擎控制,流程如下：

首先從爬蟲獲取初始的請求
將請求放入調度模塊，然後獲取下一個需要爬取的請求
調度模塊返回下一個需要爬取的請求給引擎
引擎將請求發送給下載器，依次穿過所有的下載中間件
一旦頁面下載完成，下載器會返回一個響應包含了頁面數據，然後再依次穿過所有的下載中間件。
引擎從下載器接收到響應，然後發送給爬蟲進行解析，依次穿過所有的爬蟲中間件
爬蟲處理接收到的響應，然後解析出item和生成新的請求，併發送給引擎
引擎將已經處理好的item發送給管道組件，將生成好的新的請求發送給調度模塊，並請求下一個請求
該過程重複，直到調度程序不再有請求爲止。

4.中間鍵

settings文件

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

scrapy安裝、scrapy流程

一、瞭解scrapy

1.scrapy安裝

2.基本認識

特點

3.運行流程

4.中間鍵

DAPPER 事務 TRANSACTION

Java的字符串使用方法

Java邏輯思維題

團隊法則100條

md5使用方法

python如何操作js代碼

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結