scrapy目錄結構

原創

2019-05-11 18:13

新建項目

scrapy startproject one_scrapy
scrapy genspider -l #查看爬蟲模板
scrapy genspider -t basic one_spider www.jobbole.com#以basic爲模板新建job爬蟲

項目目錄結構

編輯爬蟲文件

items.py

items.py 中定義了儲存數據的字段名，在編輯此文件前需先分析要提取那些信息，定義好名稱即可。

JobSpider.py

此文件是整個爬蟲的發起點，啓動爬蟲時會從此文件中的start_urls裏的url地址開始爬，中間經過了爬蟲》引擎》調度器》下載器》引擎》爬蟲，此時會返回一個response即爲start_urls對應的網頁文件，在此爬蟲文件裏還有一個parse函數，帶有response這個參數，專門用來解析返回文件的處理，解析後的結果經提取處理後可存放到items.py定義的字段裏（需要引入items.py中相應的類實例），如果要想將數據轉存到數據庫或其他格式，只需將item放出（yield item），它會被pipelines.py自動捕獲進行處理。

pipelines.py

此文件是用來處理提取的數據的，可以將數據轉存爲其他格式或數據庫中,如果要啓用此文件需要先在settings.py中指明pipelines.py中的類，並且如果有多個類的話還要定義優先級，就是後面的數字，越小優先級越高，
在每個pipeline類中必有一個process_item的函數，此函數是數據處理的具體流程。

settings.py

詳細信息科參考此博客

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Qt/C++音視頻開發76-獲取本地有哪些攝像頭名稱/ffmpeg內置函數方式

一、前言上一篇文章是寫的用Qt的內置函數方式獲取本地攝像頭名稱集合，但是有幾個缺點，比如要求Qt5，或者至少要求安裝了多媒體組件multimedia，如果沒有安裝呢，或者安裝的是個空的呢，比如很多嵌入式板子，就算有multimedia組件

2024-06-04 14:32:26

芯片產業管理和營銷指北（1）—— 產品線經理主要職能

注意：本文是依據俞志宏老師的《我在硅谷管芯片：芯片產品線經理生存指南》一書閱讀後歸納總結得到。可以試做此書的讀後感，對芯片產業感興趣的同僚強烈推薦此書產品線負責人（產品線經理）：負責從芯片市場需求開始，經歷芯片的產品定義、芯片的前

2024-06-04 14:31:56

省錢攻略：阿里雲99元服務器續費到2027年方法

阿里雲99元服務器新老用戶均可以買!!! 你沒看錯，老用戶可以買!2核2G3M固定帶寬，不限流量!! 並且續費不漲價，原價99元即可續費，一直可以續費到2027年，相當於396元買4年 99元服務器 (買4年396元) 新老用戶同享雲服務

2024-06-04 14:30:56

UniTask入門指南:簡化Unity中的異步編程

UniTask入門指南:簡化Unity中的異步編程介紹: UniTask是一個輕量級、高性能的異步編程庫,專門針對Unity開發進行了優化。與Unity標準的Task系統相比,UniTask提供了更加簡潔和高效的異步編程方式。在Unity

2024-06-04 14:24:46

js日期格式化代碼

js 日期格式化代碼分享一個前端實用的 js 日期格式化代碼，相當給力。 1 export function getFillDate(key) { 2 if(key < 10) { 3 return `0${key

2024-06-04 14:24:26

Visual Studio編程效率提升技巧集（提高.NET編程效率）

前言本文大姚將爲你介紹一些Visual Studio的使用技巧和建議，旨在幫助.NET開發者更加高效地利用Visual Studio進行編程工作。無論你是.NET初學者還是經驗豐富的.NET開發者，這些技巧都將有助於提升你的工作效率，讓你

2024-06-04 14:22:35

C#開源實用的工具類庫，集成超過1000多種擴展方法

前言今天大姚給大家分享一個C#開源（MIT License）、免費、實用且強大的工具類庫，集成超過1000多種擴展方法增強 .NET Framework 和 .NET Core的使用效率：Z.ExtensionMethods。直接項目引

2024-06-04 14:22:35

第二節：MySQL8.x壓縮包的形式在Centos Stream上安裝

一. 準備服務器：阿里雲Centos Stream 9 Mysql：mysql-8.4.0-linux-glibc2.28-x86_64.tar 下載地址：https://dev.mysql.com/downloa

2024-06-04 14:22:15

CSRedis用於Redis哨兵模式，NetCore

十年河東，十年河西，莫欺少年窮學無止境，精益求精上一節通過兩臺windowsServer服務器部署了Redis的哨兵模式，詳情參考：兩臺windowserver服務器配置Redis哨兵集羣----一主二從 redis通過主從複製來實現高

2024-06-04 14:22:05

svn和git提交時忽略不同平臺的換行符(unix-eol)

跨平臺的代碼文件，拉下來在windows上沒有修改，使用vs打開工程後就會有大量文件出現在修改列表中，對比diff，差異在最後一行分別是windowx的換行和unix的換行，也就是不同平臺的換行符不一樣，那麼如何讓svn忽略這種差異呢？ s

2024-06-04 14:21:15

Git操作指南：多人協作提交代碼的規範

操作指南以TortoiseGit以例，多人或多臺電腦之間同步協作少用git pull，而是要通過以下方法右鍵點擊 git sync，選擇 Fetch & Rebase 等待Fetch完之後，在彈出來的選項中選擇Rebase 在Reb

2024-06-04 14:21:15

kaggle賬號註冊方法

https://www.bilibili.com/video/BV1Sc411j7Fd/?spm_id_from=333.337.search-card.all.click&vd_source=d68ed178f151e80fea1e02e

張博的博客

2024-06-04 14:20:25

lombok的坑

java -jar lombok.jar config -g --verbose [BUG] Lombok generates only one @Getter and @Setter for a field name · Issue #

2024-06-04 14:17:25

Maven中scope=provided和optional=true的區別 maven scope 'provided' 和 ‘compile’的區別

先說效果，maven依賴聲明中加了<scope>provided</scope>，或者加了<optional>true</optional>，從效果上看是一樣的，都會中斷依賴傳遞，觀察下圖：依賴圖圖中，項目B分別依賴了

2024-06-04 14:17:24

記一次 .NET某質量檢測中心繫統崩潰分析

一：背景 1. 講故事這些天有點意思，遇到的幾個程序故障都是和Windows操作系統或者第三方組件有關係，真的有點無語，今天就帶給大家一例 IIS 相關的與大家分享，這是一家國企的.NET程序，出現了崩潰急需分析。二：WinDbg 分析

2024-06-04 14:16:14

24小時熱門文章

最新文章

最新評論文章