因为时不时老是用到这个爬虫框架,每次用的时候,都重新看一下慕课网的视频,感觉效率好低。再次记录之,方便后续使用时回忆。
安装scrapy
pip install scrapy
scrapy原理
scrapy engine: 各个模块的数据通讯和传递
spiders:爬虫,xpath组件。解析策略。处理所有的response。
scheduler:请求队列,当引擎需要请求的时候,从调度器拿一个请求出来。
Downloader:发送请求并下载数据。
item pipelinie:处理spider解析后的数据,并且进行后续的处理。
Download Middleware:隐藏自己。
Spider Middleware:可以自定义扩展的组件。对response和request进行修改。
新建scrapy项目
在指定文件夹输入以下命令
scrapy startproject <Project name>
生成爬虫
scrapy genspider douban_spider movie.douban.com
明确爬取的数据
在items.py文件中修改
编写spider
执行爬虫 (在项目文件夹下执行如下命令)
scrapy crawl <spider name>
设置User-Agent
浏览器按F12,找到network那栏,刷新一下网页,点击Name下第一个,在header栏往下拉,找到最后一个User-Agent
复制这里的User-Agent,在settings.py文件下修改。
简单测试一下爬取的网页信息
def parse(self, response):
print(response.text)