scrapy安裝、scrapy流程

一、瞭解scrapy

1.scrapy安裝

scrapy支持Python2.7和python3.4以上版本。

python包可以用全局安裝(也稱爲系統範圍),也可以安裝咋用戶空間中。

Windows
一.直接安裝
1.在https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下載對應的Twisted的版本文件

  1. 在命令行進入到Twisted的目錄 執行pip install 加Twisted文件名

3.執行pip install scrapy
二.annaconda 下安裝
1.安裝conda
conda舊版本 https://docs.anaconda.com/anaconda/packages/oldpkglists/
安裝方法 https://blog.csdn.net/ychgyyn/article/details/82119201

  1. 安裝scrapy conda install scrapy

Ubuntu 14.04或以上 安裝
scrapy目前正在使用最新版的lxml,twisted和pyOpenSSL進行測試,並且與最近的Ubuntu發行版兼容。但它也支持舊版本的Ubuntu,比如Ubuntu14.04,儘管可能存在TLS連接問題。

三、Ubuntu安裝注意事項
不要使用 python-scrapyUbuntu提供的軟件包,它們通常太舊而且速度慢,無法趕上最新的Scrapy。
要在Ubuntu(或基於Ubuntu)系統上安裝scrapy,您需要安裝這些依賴項:
sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
如果你想在python3上安裝scrapy,你還需要Python3的開發頭文件:
sudo apt-get install python3-dev
在virtualenv中,你可以使用pip安裝Scrapy:
pip install scrapy

2.基本認識

Scrapy是純Python開發的一個高效,結構化的網頁抓取框架;

Scrapy是一個爲了爬取網站數據,提取結構性數據而編寫的應用框架。 其最初是爲了頁面抓取 (更確切來說, 網絡抓取 )所設計的,也可以應用在獲取API所返回的數據(例如 Amazon Associates Web Services ) 或者通用的網絡爬蟲。 Scrapy用途廣泛,可以用於數據挖掘、監測和自動化測試 Scrapy使用了Twisted 異步網絡庫來處理網絡通訊。

特點

1.爲了更利於我們將精力集中
在請求與解析上
2.企業級的要求

3.運行流程

在這裏插入圖片描述

上圖顯示了Scrapy框架的體系結構及其組件,以及系統內部發生的數據流(由紅色的箭頭顯示。)
Scrapy中的數據流由執行引擎控制,流程如下:

  • 首先從爬蟲獲取初始的請求
  • 將請求放入調度模塊,然後獲取下一個需要爬取的請求
  • 調度模塊返回下一個需要爬取的請求給引擎
  • 引擎將請求發送給下載器,依次穿過所有的下載中間件
  • 一旦頁面下載完成,下載器會返回一個響應包含了頁面數據,然後再依次穿過所有的下載中間件。
  • 引擎從下載器接收到響應,然後發送給爬蟲進行解析,依次穿過所有的爬蟲中間件
  • 爬蟲處理接收到的響應,然後解析出item和生成新的請求,併發送給引擎
  • 引擎將已經處理好的item發送給管道組件,將生成好的新的請求發送給調度模塊,並請求下一個請求
  • 該過程重複,直到調度程序不再有請求爲止。

4.中間鍵

settings文件

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章