Scrapy框架介紹及基礎示例

原創

2019-07-30 06:32

Scrapy框架介紹及基礎示例

scrapy ：
是一個爲了爬取網站數據，提取結構性數據而編寫的應用框架。其可以應用在數據挖掘，信息處理或存儲歷史數據等一系列的程序中。其最初是爲了頁面抓取 (更確切來說, 網絡抓取 )所設計的，也可以應用在獲取API所返回的數據(例如 Amazon Associates Web Services ) 或者通用的網絡爬蟲。Scrapy用途廣泛，可以用於數據挖掘、監測和自動化測試。
特點：快速，簡單，可擴展

Scrapy 使用了 Twisted異步網絡庫來處理網絡通訊。整體架構大致如下:

組件：

	引擎(Scrapy)
		用來處理整個系統的數據流, 觸發事務(框架核心) 		
	調度器(Scheduler)
		用來接受引擎發過來的請求, 壓入隊列中, 並在引擎再次請求的時候返回.   
		 可以想像成一個URL（抓取網頁的網址或者說是鏈接）的優先隊列, 
		 由它來決定下一個要抓取的網址是什麼, 同時去除重複的網址
	下載器(Downloader) 
		用於下載網頁內容，並將網頁內容返回給蜘蛛(Scrapy下載器是建立在twisted這個高效的異步模型上的) 		
	爬蟲(Spiders)
		爬蟲是主要幹活的, 用於從特定的網頁中提取自己需要的信息， 即所謂的實體(Item)。
		用戶也可以從中提取出鏈接,讓Scrapy繼續抓取下一個頁面
	項目管道(Pipeline)
		負責處理爬蟲從網頁中抽取的實體，主要的功能是持久化實體、驗證實體的有效性、
		清除不需要的信息。當頁面被爬蟲解析後，
		將被髮送到項目管道，並經過幾個特定的次序處理數據。 		
	下載器中間件(Downloader Middlewares)
		位於Scrapy引擎和下載器之間的框架，主要是處理Scrapy引擎與下載器之間的請求及響應。
	爬蟲中間件(Spider Middlewares)	
		介於Scrapy引擎和爬蟲之間的框架，主要工作是處理蜘蛛的響應輸入和請求輸出。
	調度中間件(Scheduler Middewares)
		介於Scrapy引擎和調度之間的中間件，從Scrapy引擎發送到調度的請求和響應。

運行流程大概如下：

		引擎從調度器中取出一個鏈接(URL)用於接下來的抓取
		引擎把URL封裝成一個請求(Request)傳給下載器
		下載器把資源下載下來，並封裝成應答包(Response)
		爬蟲解析Response
		解析出實體（Item）,則交給實體管道進行進一步的處理
		解析出的是鏈接（URL）,則把URL交給調度器等待抓取

示例：
新建項目：

scrapy startproject xiaohua
cd xiaohua
scrapy genspider xiaohua xiaohuar.com

項目目錄：
pro_name_dir/

 scrapy.cfg            # 部署配置文件
    	    pro_name/             # project's Python module, you'll import your code from here
    	        __init__.py
        	    items.py          # 設置數據存儲模板，用於結構化數據，如：Django的Model
       	        middlewares.py    # 中間件文件
       	        pipelines.py      # 數據處理行爲，如：一般結構化的數據持久化
       	        settings.py       # 項目配置文件
       	        spiders/          # 爬蟲目錄，如：創建文件，編寫爬蟲規則
    	            __init__.py
    	            xiaohua.py

items.py

import scrapy

class XiaohuaPicItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    addr = scrapy.Field()
    name = scrapy.Field()

setttings.py

ITEM_PIPELINES = {
   'xiaohua_pic.pipelines.XiaohuaPicPipeline': 100,
}

pipelins.py

import urllib
import os

class XiaohuaPicPipeline(object):
    def process_item(self, item, spider):
        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0'}
        req = urllib.request.Request(url=item['addr'], headers=headers)
        # Python3.3之後urllib與urllib2合併，只能使用urllib.request/response代替urllib2
        res = urllib.request.urlopen(req)
        # 確保pic_dir目錄真實存在
        file_name = os.path.join(r'E:\python_project_dir\xiaohua_pic\pic_dir', item['name'] + '.jpg')
        with open(file_name, 'wb') as fp:
            fp.write(res.read())

xiaohua.py

# -*- coding: utf-8 -*-
import scrapy
import os
from scrapy.http import Request
from xiaohua_pic.items import XiaohuaPicItem

class XiaohuaSpider(scrapy.Spider):
    name = 'xiaohua'
    allowed_domains = ['xiaohuar.com']
    start_urls = ['http://www.xiaohuar.com/hua/']

    url_set = set()
    def parse(self, response):
        # 獲取所有圖片的a標籤
        if response.url.startswith("http://www.xiaohuar.com/list-"):
            allPics = response.xpath('//div[@class="img"]/a')
            for pic in allPics:
                # 分別處理每個圖片，取出名稱及地址
                item = XiaohuaPicItem()
                name = pic.xpath('./img/@alt').extract()[0] # 提取獲取名稱
                addr = pic.xpath('./img/@src').extract()[0] # 提取獲取img的src
                addr = 'http://www.xiaohuar.com' + addr
                item['name'] = name
                item['addr'] = addr
                yield item # 返回爬到的信息
        # 獲取所有鏈接地址
        urls = response.xpath("//a/@href").extract()
        for url in urls:
            # 篩選href爲http://www.xiaohuar.com/list-的分頁url，
            if url.startswith("http://www.xiaohuar.com/list-"):
                if url in XiaohuaSpider.url_set:
                    pass
                else:
                    XiaohuaSpider.url_set.add(url)
                    yield self.make_requests_from_url(url) # 回調parse，將新url傳入
                    # 回調函數默認爲parse,也可以通過from scrapy.http import Request來指定回調函數
                    # from scrapy.http import Request
                    # Request(url,callback=self.parse)
            else:
                pass

運行：
scrapy crawl xiaohua
或cd spider
scrapy runspider xiaohua.py

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Scrapy框架介紹及基礎示例

Scrapy框架介紹及基礎示例

公司剛入職了一名 Java 中級開發，短短 4 行代碼居然湊齊了 3 個 bug！我哭了~~

公衆號5月C#/.NET熱文一覽

git 下載大陸鏡像地址

Flask，模板，過濾器，靜態文件

mysql8.0配置文件說明介紹

Python操作Redis。

Iptables簡介與示例

端口與對應服務一覽

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結