scrapy :介紹

原創

2019-08-09 15:41

scrapy框架通常用於爬取大數據量的爬取應用上

首先要在電腦上安裝scrapy 可用pip install scrapy

如果不成功就到官網下載在安裝，具體操作不在這寫了

首先創建scrapy項目：scrapy startproject [項目名]

創建爬蟲文件：scrapy genspider [文件名]

運行爬蟲：scrapy crawl [文件名]

幾種常見的命令行的保存文件：

1、保存爲json格式

2、保存爲csv格式

3、保存爲xml格式

命令行代碼如下：

scrapy crawl [文件名] -o [文件保存名.格式[json|csv|xml]]

還有一個比較常用的分析網站即爬取數據的測試方法：

在cmd中運行的命令行代碼如下：

scrapy shell [待爬取的網站的域名]

scrapy 支持三種數據抽取方法分別是：

1、正則表達式

2、xpath

3、選擇器

具體的用法可自行學習

scrapy 項目文件：

__init__.py 基本上不需要修改，只是說明爲包文件

piplines.py 這個是非常中要的文件保存數據庫保存的操作都是在這裏添加

items.py 這個文件只要定義要爬取的數據名字段

settings.py 這是項目的配置文件，項目的頭文件headers cookie都需要在這裏修改，如果添加了pipline還需將文件添加到設置了，設置延時時間，單個域名爬取延時等

moiddleware.py 中間件的操作，需求不大時，可以不用修改

spiders文件中就是我們創建的主函數，詳細代碼都是在這裏面編寫的

scrapy爬蟲的原理爲[圖片來源網絡]：

大致過程：

spider添加爬蟲請求，將每一個請求發送給調度器由調度器進行調度任務，

調度器向服務器發送請求的響應數據，

網絡返回響應數據到spider，

spider再返回處理過的數據到piplines進行保存

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.