簡化理解 Scrapy 爬蟲框架

原創

2020-06-16 04:37

mywang88

2019-08-14

簡介

一年前開始接觸 Python 和網絡爬蟲技術。

彼時由於基礎較爲薄弱，在使用 Scrapy 框架時產生了不少疑惑。於是果斷放棄，改用 Requests 擴展庫，打算在網絡爬蟲開發的實踐中，逐步明白框架的設計意義。

期間補充了不少的 Python 語法知識，以及程序設計思想。

雖然緩慢，但也算有進步，於是決定水一貼。

基於對 Scrapy 框架的初步理解，將其進行了極大簡化，只強調核心邏輯。

代碼

from requests import Request, Session

class Engine:
    @classmethod
    def run(cls):
        Scheduler.pool.extend(Spider().start())
        while True:
            req = Scheduler.pool.pop()
            res = Downloader.download(req)
            for p in req.callback(res):
                (Pipeline, Scheduler)[isinstance(p, Request)].pool.append(p)

class Spider:
    def start(self):
        req = Request('GET', 'https://www.baidu.com')
        req.callback = self.parse
        yield req
        
    @staticmethod
    def parse(res):
        item = Item()
        item.html = res.text
        yield item

class Scheduler:
    pool = []

class Pipeline:
    pool = []

class Downloader:
    @classmethod
    def download(cls, req):
        return Session().send(req.prepare())

class Item:
    pass

if __name__ == '__main__':
    Engine.run()

補充

示例主要體現了 Engine 和 Spider 的邏輯，尤其是生成器（Generator）的運用。

示例忽略了包括但不限於：

爬蟲中間件和下載中間件等部件。
Pipeline 的存儲功能。
多線程邏輯。
Scheduler 的隊列管理邏輯。
各種異常的處理邏輯
Request 類的創建（繼承或代理等封裝形式）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python：計算類別分佈CalculateClassDistribution

import numpy as np import pandas as pd from sklearn import datasets from sklearn.ensemble import RandomForestClassifie

2020-07-08 07:35:14

Python調用matlab 函數

在python中啓動matlab： engine = matlab.engine.start_matlab() 如果輸入的變量X是表格式的數據（n*d），即 ndarray格式，需要進行轉換後再輸入： data_list= matla

2020-07-08 07:35:11

Python：將sklearn自帶數據轉存爲CSV文件

import numpy as np import pandas as pd from sklearn import datasets X,y = datasets.load_breast_cancer(return_X_y=True

2020-07-08 07:35:10

Python:一排三個子圖

import matplotlib.pyplot as plt import numpy as np import pandas as pd path1 = r"D:\ExperimentalData\Jain\jain.csv" pa

2020-07-08 07:35:10

Python : 一排三個子圖（二）

import matplotlib.pyplot as plt import numpy as np import pandas as pd path11 = r"D:\ExperimentalData\Jain\multiCenter

2020-07-08 07:35:08

Python：New Balanced Active Learning Model and Optimization Algorithm--2018IJCAI

參考文獻：New Balanced Active Learning Model and Optimization Algorithm--2018IJCAI 原文代碼找了好久沒有找到，至少Github上沒有找到（2020-06-10之前）

2020-07-08 07:35:07

Python：在python中調用Weka的方法

讓您你們失望了，我啥都沒寫。提供鏈接 https://blog.csdn.net/weixin_30832351/article/details/94889557

2020-07-08 07:35:07

Python：兩個ndarray數據進行矩陣乘法

import numpy as np a = np.array([[1,2,3],[1,2,3],[1,2,3]]) # print(a) # print(a ** 2) c = np.array([1,2,3]) b = np.arr

2020-07-08 07:35:07

Python: numpy.random的使用

import numpy as np print(np.random.random()) 0.7714546557122427 輸出單個0-1之間的隨機數 import numpy as np print(np.random.r

2020-07-08 07:35:07

Python：相對標準的DPC

import numpy as np import pandas as pd import copy import matplotlib.pyplot as plt from sklearn import datasets from s

2020-07-08 07:35:07

爬取高清站長之家美圖（想爬多少爬多少）

方方面面總是會需要使用一些圖片做封面或背景。圖片有兩種來源：一是通過創可貼自己動手修改下就可以用了，還一種就是在網上下載圖片。那如何下載高清並且可以供使用的圖片了？我是使用的站長之家網站下載來的圖片（http://sc.chin

iplaypy(蟒蛇师)

2020-07-08 10:43:01

爬蟲-獲取指定城市所有企業信息

之前寫過一個博客：python爬蟲從企查查獲取企業信息-手工繞開企查查的登錄驗證 https://blog.csdn.net/rock4you/article/details/88254612 但只能獲取指定公司的信息，這篇博客的目的是獲

2020-07-08 08:24:13

學習爬蟲基礎6-HTTP響應狀態碼參考：

HTTP響應狀態碼參考： 1xx:信息 100 Continue 服務器僅接收到部分請求，但是一旦服務器並沒有拒絕該請求，客戶端應該繼續發送其餘的請求。 101 Switching Protocols 服務器轉換協議：服務器

疯狂打码中

2020-07-08 07:56:24

【Python成長之路】Boss直聘爬蟲第2彈：selenium找不到元素的常見問題

哈嘍大家好，我是鵬哥。今天繼續上週的主題是 —— boss直聘網站的爬蟲。 ~~~上課鈴~~~ 盜墓筆記·十年人間李常超（Lao乾媽） - 盜墓筆記·十年人間 1 寫在前面上一篇文章講的如何破解boss直聘網站的滑塊

鹏哥贼优秀

2020-07-08 06:35:40

【Python成長之路】破解Boss直聘網站滑塊驗證

哈嘍大家好，我是鵬哥。今天要記錄的內容是 —— 破解Boss直聘網站的滑塊驗證。 …… 上課鈴…… TuesdayBurak Yeter;Danelle Sandoval - Tuesday 1 寫在前面最近

鹏哥贼优秀

2020-07-08 06:35:38

24小時熱門文章

最新文章

最新評論文章