scrapy框架 通常用於爬取大數據量的爬取應用上
首先要在電腦上安裝scrapy 可用pip install scrapy
如果不成功就到官網下載在安裝,具體操作不在這寫了
首先創建scrapy項目:scrapy startproject [項目名]
創建爬蟲文件:scrapy genspider [文件名]
運行爬蟲:scrapy crawl [文件名]
幾種常見的命令行的保存文件:
1、保存爲json格式
2、保存爲csv格式
3、保存爲xml格式
命令行代碼如下:
scrapy crawl [文件名] -o [文件保存名.格式[json|csv|xml]]
還有一個比較常用的分析網站即爬取數據的測試方法:
在cmd中運行的命令行代碼如下:
scrapy shell [待爬取的網站的域名]
scrapy 支持三種數據抽取方法分別是:
1、正則表達式
2、xpath
3、選擇器
具體的用法可自行學習
scrapy 項目文件:
__init__.py 基本上不需要修改,只是說明爲包文件
piplines.py 這個是非常中要的文件保存 數據庫保存的操作都是在這裏添加
items.py 這個文件只要定義要爬取的數據名字段
settings.py 這是項目的配置文件,項目的頭文件headers cookie都需要在這裏修改,如果添加了pipline還需將文件添加到設置了,設置延時時間,單個域名爬取延時等
moiddleware.py 中間件的操作,需求不大時,可以不用修改
spiders文件中就是我們創建的主函數,詳細代碼都是在這裏面編寫的
scrapy爬蟲的原理爲[圖片來源網絡]:
大致過程:
spider添加爬蟲請求,將每一個請求發送給調度器由調度器進行調度任務,
調度器向服務器發送請求的響應數據,
網絡返回響應數據到spider,
spider再返回處理過的數據到piplines進行保存