接觸Scrapy框架已經有一段時間,爲期的4個月的項目開發,讓我對該框架有一定的瞭解。
現在簡單介紹使用方法
Scrapy 官方中文檔 : https://scrapy-chs.readthedocs.io/zh_CN/0.24/
下圖爲Scrapy 的文件目錄格式
weini : 該項目的python模塊。之後您將在此加入代碼。
weini/spiders: 放置spider代碼的目錄.
weini/settings: 項目的設置文件. (具體參數設置可以參考官方文檔)
main.py: 腳本啓動
scrapy.cfg: 項目的配置文件
scrapy.cfg 文件主要配置項目模塊及項目的設置文件.
settings.py 可以設置對應的參數
下圖設置:
BOT_NAME : Scrapy項目實現的bot的名字(也未項目名稱)
SPIDER_MODULES: Scrapy搜索spider的模塊列表
LOG_LEVEL: log的最低級別
main.py 執行對應的腳本,
demo_one: 腳本名稱
-a**** : 向腳本傳遞參數
demo_one.py 腳本
定義好類後繼承Scrapy基類CrawSpider
name : 腳本名稱標示
_init_: 腳本初始化,在這裏我們可以對腳本運行時傳遞的參數進行處理
start_requests: 設置腳本運行後面的第一步,如爬取如圖網站
這裏採用的是 scrapy框架帶有請求
start_requests中參數設置:
header : 可以設置請求header (cookie值可以放在其中)
callback:請求成功後回調函數
dont_filter: scrapy 對於相同的請求會進行過濾,可設置該參數,請求重複訪問
簡單的爬蟲流程結束