Scrapy 入門實例

接觸Scrapy框架已經有一段時間,爲期的4個月的項目開發,讓我對該框架有一定的瞭解。

現在簡單介紹使用方法

Scrapy 官方中文檔 : https://scrapy-chs.readthedocs.io/zh_CN/0.24/

下圖爲Scrapy 的文件目錄格式

weini : 該項目的python模塊。之後您將在此加入代碼。

weini/spiders: 放置spider代碼的目錄.

weini/settings: 項目的設置文件.  (具體參數設置可以參考官方文檔)

main.py: 腳本啓動

scrapy.cfg: 項目的配置文件

 

scrapy.cfg 文件主要配置項目模塊及項目的設置文件.

settings.py 可以設置對應的參數

下圖設置: 

BOT_NAME : Scrapy項目實現的bot的名字(也未項目名稱)

SPIDER_MODULES:  Scrapy搜索spider的模塊列表

LOG_LEVEL:  log的最低級別

main.py 執行對應的腳本, 

demo_one: 腳本名稱

-a****  :  向腳本傳遞參數

 

demo_one.py  腳本

定義好類後繼承Scrapy基類CrawSpider

name : 腳本名稱標示

_init_: 腳本初始化,在這裏我們可以對腳本運行時傳遞的參數進行處理

start_requests:  設置腳本運行後面的第一步,如爬取如圖網站

這裏採用的是 scrapy框架帶有請求

start_requests中參數設置:

header : 可以設置請求header (cookie值可以放在其中)

callback:請求成功後回調函數

dont_filter: scrapy 對於相同的請求會進行過濾,可設置該參數,請求重複訪問

 

簡單的爬蟲流程結束

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章