scrapy目錄結構

新建項目

scrapy startproject one_scrapy
scrapy genspider -l #查看爬蟲模板
scrapy genspider -t basic one_spider www.jobbole.com#以basic爲模板新建job爬蟲

項目目錄結構

這裏寫圖片描述

編輯爬蟲文件


  1. items.py

items.py 中定義了儲存數據的字段名,在編輯此文件前需先分析要提取那些信息,定義好名稱即可。

  • JobSpider.py

    此文件是整個爬蟲的發起點,啓動爬蟲時會從此文件中的start_urls裏的url地址開始爬,中間經過了 爬蟲》引擎》調度器》下載器》引擎》爬蟲,此時會返回一個response即爲start_urls對應的網頁文件,在此爬蟲文件裏還有一個parse函數,帶有response這個參數,專門用來解析返回文件的處理,解析後的結果經提取處理後可存放到items.py定義的字段裏(需要引入items.py中相應的類實例),如果要想將數據轉存到數據庫或其他格式,只需將item放出 (yield item),它會被pipelines.py自動捕獲進行處理。

  • pipelines.py

    此文件是用來處理提取的數據的,可以將數據轉存爲其他格式或數據庫中,如果要啓用此文件需要先在settings.py中指明pipelines.py中的類,並且如果有多個類的話還要定義優先級,就是後面的數字,越小優先級越高,
    在每個pipeline類中必有一個process_item的函數,此函數是數據處理的具體流程。

  • settings.py


  • 詳細信息科參考此博客
    發表評論
    所有評論
    還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
    相關文章