Overview
Scrapy 整体抽象架构
图片外链地址备份:
https://i.loli.net/2020/04/17/xjmnhgAU9akrQZ7.png
loop until universe collapses
Scrapy 程序整体循环原理
循环部分实现细节
图片外链地址备份:
https://i.loli.net/2020/04/19/r8Lepa6JNkhlG5M.png
core/
下多个模块实现细节
Downloader 模块部分实现细节
图片外链地址备份:
https://i.loli.net/2020/04/19/u3SmJRO7nTrWjCb.png
Scheduler - N/A
n/a
Engine - N/A
n/a
Scraper - N/A
n/a
middleware - N/A
n/a
Scrapy UML
图片外链地址备份:
https://i.loli.net/2020/04/19/MEtrpbaTdJfDVCc.png
Reference
-
《Learning Scrapy》 - 知识点: Twisted 的异步回调
关键字:
deferred
,d.addCallback
,d.callback
,reactor.run
。
基于 *NIX 的非阻塞I/O(异步I/O)知识。 -
🔗 Scrapy源码分析(二):一个参考Scrapy实现的爬虫框架TinyScrapy
参考内容:
- https://www.youtube.com/watch?v=E-fTiygBNEI&t=297s,老男孩的python全栈学习(TinyScrapy)
- https://www.youtube.com/watch?v=3R4gP6Egh5M演讲人主要是twisted的贡献者。
-
Scrapy 源码
转载、引用请注明出处。