scrapy复习笔记

因为时不时老是用到这个爬虫框架,每次用的时候,都重新看一下慕课网的视频,感觉效率好低。再次记录之,方便后续使用时回忆。

安装scrapy

pip install scrapy

scrapy原理

在这里插入图片描述

scrapy engine: 各个模块的数据通讯和传递

spiders:爬虫,xpath组件。解析策略。处理所有的response。

scheduler:请求队列,当引擎需要请求的时候,从调度器拿一个请求出来。

Downloader:发送请求并下载数据。

item pipelinie:处理spider解析后的数据,并且进行后续的处理。

Download Middleware:隐藏自己。

Spider Middleware:可以自定义扩展的组件。对response和request进行修改。

新建scrapy项目

在指定文件夹输入以下命令

scrapy startproject <Project name>

生成爬虫

scrapy genspider douban_spider movie.douban.com

明确爬取的数据

在items.py文件中修改

编写spider

执行爬虫 (在项目文件夹下执行如下命令)

scrapy crawl <spider name>

设置User-Agent

浏览器按F12,找到network那栏,刷新一下网页,点击Name下第一个,在header栏往下拉,找到最后一个User-Agent

复制这里的User-Agent,在settings.py文件下修改。

简单测试一下爬取的网页信息

def parse(self, response):
    print(response.text)
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章