Scrapy 入门实例

原創

2019-01-04 18:07

接触Scrapy框架已经有一段时间，为期的4个月的项目开发，让我对该框架有一定的了解。

现在简单介绍使用方法

Scrapy 官方中文档： https://scrapy-chs.readthedocs.io/zh_CN/0.24/

下图为Scrapy 的文件目录格式

weini ：该项目的python模块。之后您将在此加入代码。

weini/spiders：放置spider代码的目录.

weini/settings: 项目的设置文件. (具体参数设置可以参考官方文档)

main.py: 脚本启动

scrapy.cfg: 项目的配置文件

scrapy.cfg 文件主要配置项目模块及项目的设置文件.

settings.py 可以设置对应的参数

下图设置：

BOT_NAME ： Scrapy项目实现的bot的名字(也未项目名称)

SPIDER_MODULES: Scrapy搜索spider的模块列表

LOG_LEVEL: log的最低级别

main.py 执行对应的脚本，

demo_one：脚本名称

-a**** : 向脚本传递参数

demo_one.py 脚本

定义好类后继承Scrapy基类CrawSpider

name ：脚本名称标示

_init_: 脚本初始化，在这里我们可以对脚本运行时传递的参数进行处理

start_requests: 设置脚本运行后面的第一步，如爬取如图网站

这里采用的是 scrapy框架带有请求

start_requests中参数设置：

header ：可以设置请求header （cookie值可以放在其中）

callback：请求成功后回调函数

dont_filter: scrapy 对于相同的请求会进行过滤，可设置该参数，请求重复访问

简单的爬虫流程结束

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【Python】一篇文章让你秒懂Scrapy爬虫框架

前言本文來自嵩天老師《Python網絡爬蟲與信息提取》課程中關於Scrapy框架的介紹。這是我認爲對Scrapy框架講得最爲通俗易懂、條理清晰的教程。 Scrapy是一個爬蟲框架爬蟲框架是實現爬蟲功能的一個軟件結構和功能組件

2020-07-08 09:13:30

scrapy各组件详解

Scrapy是一個爲了爬取網站數據，提取結構性數據而編寫的應用框架。可以應用在包括數據挖掘，信息處理或存儲歷史數據等一系列的程序中。其最初是爲了頁面抓取 (更確切來說, 網絡抓取 )所設計的，也可以應用在獲取API所返回的數據(例如

2020-07-07 13:29:11

response.replace(body=response.text.replace(‘\xa0‘,‘‘))，scrapy抓取网页含\r \t \n \xa0时，修改response方法

xpath抓取數據值有\r\n\t時去掉的方法：https://blog.csdn.net/z564359805/article/details/101597953 抓取網頁含\r \t \n時,用normalize-space出現特殊符

执笔写回憶

2020-07-05 18:00:13

scrapy爬虫小白入门学习--创建scrapy

創建scrapy項目第一步：在你想要創建的文件夾上面的搜索框輸入“cmd”然後回車第二步：輸入“scrapy startproject ArticleSpider”回車，完事兒。其中，scrapy startproject 這前

2020-07-04 15:29:19

菜鸟爬虫——获取安居客二手房信息

以安居客二手房爲例前言瞭解爬蟲爬蟲目錄結構爬蟲主體代碼items.py反反爬蟲策略運行爬蟲前言因爲需要一些二手房數據，菜鳥開啓了爬蟲之路！不過需要注意的是，在爬取數據時，要遵守《中華人民共和國網絡安全法》以及《規範互聯網信息服

2020-07-08 00:33:51

Python—scrapy redis超全源码解析！

知識點，朋友們！Scrapy-redis的源碼解析connection.pydefaults.pydupefilter.pypicklecompat.pypipelines.pyqueue.pyscheduler.pyspider

2020-07-07 21:55:33

scrapy连接MySQL数据库爬取英雄联盟英雄传记

作爲一位對聯盟遊戲的愛好者，學習爬蟲的時候也以這款遊戲作爲對象。這個項目使用的python版本：3.6.0，scrapy使用的版本：1.11。參照這篇博客即便是不會爬蟲的小白也可以帶你做出一個完整的scrapy項目。廢話不多說現在就開始吧

2020-07-07 13:29:11

Scrapy爬取大众点评

內容：美食品類750個商家：商家的頁面url 商家的主要信息商家所有的促銷信息（1200+條）商家所有的評論信息（沒爬完，14w+條）發表這些評論的所有用戶的信息（沒爬完，5w+條）代碼：https://gi

2020-07-06 18:40:31

Ubuntu14.0 64bit 下Scrapy爬虫框架的搭建

Ubuntu14.0 64bit 下Scrapy爬蟲框架的搭建 Python 2.7： Scrapy是Python框架，當然要先安裝Python ，不過由於Scrapy暫時只支持 Python2.7，因此首先確保你安裝的是P

2020-07-06 10:47:37

scrapy-splash学习

材料清單 docker scrapy 當我們經常遇到js加載的頁面，用scrapy來抓取其實挺麻煩的。Splash是做來加載渲染後的頁面，可以支持scrapy使用。由於Splash和Scrapy都支持異步處理，而Selenium

大佬请带带我

2020-07-06 05:23:14

基于python的-scrapy框架的基本用法

# -*- coding:utf-8 -*- # spiders 該文件夾專門存放爬蟲文件 # items.py 用於存儲爬蟲的數據 # middlewares.py 用於處理爬蟲前的請求和響應,例如設置headers # pipeli

2020-07-06 04:33:05

scrapy爬取知乎全站用户信息，存入mongodb数据库

源碼地址github，裏面有詳細註釋：https://github.com/15160200501/scrapy- 可以直接運行，不能運行的話，接口應該是換了工具：pycharm、python37、mongodb數據庫、數據庫可視化工具

致最长的电影

2020-07-05 05:57:35

一周搞定scrapy之3，将爬取到的起点中文网信息保存到mysql

安裝mysql 去mysql官網下載 https://dev.mysql.com/downloads/installer/ （除了這步要改一下，其餘的都是默認繼續）然後安裝路徑默認設置密碼，最後完成該之前的代碼 (以下是

2020-07-04 06:23:21

scrapy知网爬虫项目-2（项目创建）

新建一個目錄文件開啓命令行進入該文件夾下輸入命令：scrapy startproject mySpider 創建的項目目錄如下： zhiwang/ scrapy.cfg zhiwang/ __i

我是菜鸟小白

2020-07-04 05:41:03

python爬取琳琅社区整站视频（一晚6000部）

琳琅社區（傳聞中最受男人喜愛的網站），哼哼，我倒要看看是不是真的該項目用於爬取琳琅社區整站視頻（僅供學習）主要使用：python3.7 + scrapy2.19 + Mysql 8.0 + win10 首先確定需要爬取的內容

我的眼里只有bug

2020-07-03 18:32:28

24小時熱門文章

最新文章

最新評論文章