创建Scrapy项目过程及各文件含义

原創

2020-05-21 17:05

废话不多说，直接上步骤：

首先，要下载scrapy的包文件，下载好之后，win+R打开黑屏终端，输入scrapy就可以查看版本信息，以及已经发布的scrapy项目的信息。
（注：如果已经在自己电脑上发布了scrapy项目，黑屏终端输入scrapy启动服务之后，就可以通过浏览器127.0.0.1:6800查看已经发布的项目了）

1. 使用cmd黑屏终端cd到你要创建项目的目录下，然后输入以下内容

scrapy startproject xxx

其中xxx是你项目的名称

如下图所示：
2. 创建完毕之后，就可以使用pycharm打开这个创建好的scrapy项目了

创建好的scrapy项目的目录结构如上图所示

简要了解一下各文件的作用及意义：

1. spiders文件夹： 这里存放爬虫的主程序，这里可以写多个爬虫文件，分别执行不同的爬虫功能。
2. items.py： 这个文件定义了爬虫程序中爬取的字段信息，对应着数据库中的属性信息。
3. middlewares.py： 下载中间件，可以对爬取到的网页信息尽心特定的处理。
4. pipelines.py： 管道，也就是将返回来的item字段信息写入到数据库，这里可以写写入数据库的代码。
5. settings.py： 配置文件。
**6. scrapy.cfg：**可以说是配置settings的文件，如果一个项目中包含多个settings.py配置文件，那么在这个文件中就可以选择使用哪个配置文件来管理项目。

3. 创建一个爬虫文件

scrapy genspider xxx xxx.cn

举个栗子：
爬虫文件名为第一个xxx：blogspider
爬虫文件执行爬虫的网站为第二个xxx：weibo.cn

每次创建新的爬虫文件都使用这个命令行就可
以下是执行上述步骤之后创建的爬虫文件：

我们可以重写爬虫文件中的各种方法来实现我们的爬虫

4. 修改settings.py：

修改是否遵守爬虫规则，默认是True，表示会爬取特定的内容，一般会将它改成False：ROBOTSTXT_OBEY = False
开启中间件：settings.py文件往下拉，将代码注释掉就可以

DOWNLOADER_MIDDLEWARES = {
   'microBlogSpider.middlewares.MicroblogspiderDownloaderMiddleware': 543,
}

开启管道：同上

ITEM_PIPELINES = {
   'microBlogSpider.pipelines.MicroblogspiderPipeline': 300,
}

接下来就是编写items.py文件确定爬取的字段信息，编写pipelines.py和数据库进行交互，编写爬虫文件爬取网页内容。。。

5. 启动爬虫
命令行中直接输入：scrapy crawl xxx
其中xxx代表你的爬虫文件的name

或者创建一个start.py文件，每次执行这个文件就可以启动，文件内容如下：

# -*- coding: utf-8 -*-
from scrapy import cmdline
cmdline.execute("scrapy crawl xxxx".split())

xxxx填入对应的爬虫名称就可以了

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

创建Scrapy项目过程及各文件含义

常用的 Git 指令

sm4加密工具类

Django調用Scrapy爬蟲實現異步爬蟲（前端輸入爬蟲字段信息，後端執行爬蟲過程）

Scrapy實現微博關鍵詞爬蟲（爬蟲結果寫入mongodb）

發佈Scrapy項目到scrapyd

Scrapy實現爬取新浪微博用戶信息（爬蟲結果寫入mongodb）

創建Scrapy項目過程及各文件含義

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結