scrapy :介紹

scrapy框架 通常用於爬取大數據量的爬取應用上

首先要在電腦上安裝scrapy 可用pip install scrapy 

如果不成功就到官網下載在安裝,具體操作不在這寫了

首先創建scrapy項目:scrapy startproject [項目名]

創建爬蟲文件:scrapy genspider [文件名]

運行爬蟲:scrapy crawl [文件名]

幾種常見的命令行的保存文件:

1、保存爲json格式

2、保存爲csv格式

3、保存爲xml格式

命令行代碼如下:

scrapy crawl [文件名] -o [文件保存名.格式[json|csv|xml]]

還有一個比較常用的分析網站即爬取數據的測試方法:

在cmd中運行的命令行代碼如下:

scrapy shell [待爬取的網站的域名]

scrapy 支持三種數據抽取方法分別是:

1、正則表達式

2、xpath

3、選擇器

具體的用法可自行學習

scrapy 項目文件:

__init__.py  基本上不需要修改,只是說明爲包文件

piplines.py 這個是非常中要的文件保存 數據庫保存的操作都是在這裏添加

items.py 這個文件只要定義要爬取的數據名字段

settings.py 這是項目的配置文件,項目的頭文件headers cookie都需要在這裏修改,如果添加了pipline還需將文件添加到設置了,設置延時時間,單個域名爬取延時等

moiddleware.py 中間件的操作,需求不大時,可以不用修改

spiders文件中就是我們創建的主函數,詳細代碼都是在這裏面編寫的

 

scrapy爬蟲的原理爲[圖片來源網絡]:

大致過程:

spider添加爬蟲請求,將每一個請求發送給調度器由調度器進行調度任務,

調度器向服務器發送請求的響應數據,

網絡返回響應數據到spider,

spider再返回處理過的數據到piplines進行保存 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章