創建Scrapy項目過程及各文件含義

原創

2020-05-21 17:05

廢話不多說，直接上步驟：

首先，要下載scrapy的包文件，下載好之後，win+R打開黑屏終端，輸入scrapy就可以查看版本信息，以及已經發布的scrapy項目的信息。
（注：如果已經在自己電腦上發佈了scrapy項目，黑屏終端輸入scrapy啓動服務之後，就可以通過瀏覽器127.0.0.1:6800查看已經發布的項目了）

1. 使用cmd黑屏終端cd到你要創建項目的目錄下，然後輸入以下內容

scrapy startproject xxx

其中xxx是你項目的名稱

如下圖所示：
2. 創建完畢之後，就可以使用pycharm打開這個創建好的scrapy項目了

創建好的scrapy項目的目錄結構如上圖所示

簡要了解一下各文件的作用及意義：

1. spiders文件夾： 這裏存放爬蟲的主程序，這裏可以寫多個爬蟲文件，分別執行不同的爬蟲功能。
2. items.py： 這個文件定義了爬蟲程序中爬取的字段信息，對應着數據庫中的屬性信息。
3. middlewares.py： 下載中間件，可以對爬取到的網頁信息盡心特定的處理。
4. pipelines.py： 管道，也就是將返回來的item字段信息寫入到數據庫，這裏可以寫寫入數據庫的代碼。
5. settings.py： 配置文件。
**6. scrapy.cfg：**可以說是配置settings的文件，如果一個項目中包含多個settings.py配置文件，那麼在這個文件中就可以選擇使用哪個配置文件來管理項目。

3. 創建一個爬蟲文件

scrapy genspider xxx xxx.cn

舉個栗子：
爬蟲文件名爲第一個xxx：blogspider
爬蟲文件執行爬蟲的網站爲第二個xxx：weibo.cn

每次創建新的爬蟲文件都使用這個命令行就可
以下是執行上述步驟之後創建的爬蟲文件：

我們可以重寫爬蟲文件中的各種方法來實現我們的爬蟲

4. 修改settings.py：

修改是否遵守爬蟲規則，默認是True，表示會爬取特定的內容，一般會將它改成False：ROBOTSTXT_OBEY = False
開啓中間件：settings.py文件往下拉，將代碼註釋掉就可以

DOWNLOADER_MIDDLEWARES = {
   'microBlogSpider.middlewares.MicroblogspiderDownloaderMiddleware': 543,
}

開啓管道：同上

ITEM_PIPELINES = {
   'microBlogSpider.pipelines.MicroblogspiderPipeline': 300,
}

接下來就是編寫items.py文件確定爬取的字段信息，編寫pipelines.py和數據庫進行交互，編寫爬蟲文件爬取網頁內容。。。

5. 啓動爬蟲
命令行中直接輸入：scrapy crawl xxx
其中xxx代表你的爬蟲文件的name

或者創建一個start.py文件，每次執行這個文件就可以啓動，文件內容如下：

# -*- coding: utf-8 -*-
from scrapy import cmdline
cmdline.execute("scrapy crawl xxxx".split())

xxxx填入對應的爬蟲名稱就可以了

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

創建Scrapy項目過程及各文件含義

PDManer [元數建模]-v4.9.0 發佈：一款簡單好用的數據庫建模平臺

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

sql求連續值問題

cs01 CSS Syntax

挑戰程序設計競賽 2.3章習題 poj 3046 Ant Counting

[MASM拾遺]Offset僞指令

h30 HTML Layout Elements

瞭解顯卡

一款基於C#開發的通訊調試工具（支持Modbus RTU、MQTT調試）

Linux/Golang/glibC系統調用

Django調用Scrapy爬蟲實現異步爬蟲（前端輸入爬蟲字段信息，後端執行爬蟲過程）

Scrapy實現微博關鍵詞爬蟲（爬蟲結果寫入mongodb）

發佈Scrapy項目到scrapyd

Scrapy實現爬取新浪微博用戶信息（爬蟲結果寫入mongodb）

創建Scrapy項目過程及各文件含義

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結