scrapy_redis對接布隆過濾器(Bloom Filter)

原創

2020-04-11 14:32

使用方式：

pip3 install scrapy-redis-bloomfilter

使用的方法和Scrapy-Redis基本相似，在這裏說明幾個關鍵配置。

# 1. 替換原來的請求調度器的實現類，使用 scrapy-redis 中請求調度器
SCHEDULER = "scrapy_redis_bloomfilter.scheduler.Scheduler"

# 2. 設置去重類，實現去重的代碼規則，會生成 去重指紋 存在 redis 中
# 去重類，要使用Bloom Filter請替換DUPEFILTER_CLASS
DUPEFILTER_CLASS = "scrapy_redis_bloomfilter.dupefilter.RFPDupeFilter"

# 3. 開啓增量式
SCHEDULER_PERSIST = True

# 4. 配置redis
REDIS_HOST = "127.0.0.1"  #
REDIS_PORT = 6379

REDIS_PARAMS = {
    'db': 13
}


# 散列函數的個數，默認爲6，可以自行修改
BLOOMFILTER_HASH_NUMBER = 6
# Bloom Filter的bit參數，默認30，佔用128MB空間，去重量級1億
BLOOMFILTER_BIT = 30

DUPEFILTER_CLASS是去重類，如果要使用Bloom Filter，則DUPEFILTER_CLASS需要修改爲該包的去重類。

BLOOMFILTER_HASH_NUMBER是Bloom Filter使用的散列函數的個數，默認爲6，可以根據去重量級自行修改。

BLOOMFILTER_BIT即前文所介紹的BloomFilter類的bit參數，它決定了位數組的位數。如果BLOOMFILTER_BIT爲30，那麼位數組位數爲2的30次方，這將佔用Redis 128 MB的存儲空間，去重量級在1億左右，即對應爬取量級1億左右。如果爬取量級在10億、20億甚至100億，請務必將此參數對應調高

一定要注意參數！！（爬取數據量級別對應一下）
項目地址代碼：
https://github.com/Python3WebSpider/ScrapyRedisBloomFilter

學習地址：

崔慶才大神的騰訊雲＋社區：

https://cloud.tencent.com/developer/article/1084962

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

(開源) 寫了一個無代碼平臺 brick

前沿無代碼開發是一種無需編寫代碼或通過少量代碼就可以快速生成應用程序的開發平臺。它可以快速交付應用程序，解決傳統軟件開發模式帶來的週期長、成本高等問題。無代碼開發平臺，允許用戶通過拖拽和放置組件的方式來構建應用界面。 brick 是一個

快樂的開發者

2024-05-24 14:33:07

2023 年上半年數據庫系統工程師考試

基礎知識 ● 計算機中，系統總線用於（1）。（1）A.接口和外設 B.運算器、控制器和寄存器 C.CPU、主存及外設部件 D.DMA 控制器和中斷控制器參考答案：（1）C 系統

2024-05-24 14:25:06

5 月，Java 崗位爆了？？？

大家好，我是R哥。最近，R哥分享了兩個特別有意思的面試輔導成功案例： 35K*14 薪入職了，這公司只要不裁員，我能一直呆下去。。幹了 2 年多 Java 外包，終於脫離了！今天再分享一個振奮人心的面試輔導 case：

2024-05-24 14:22:06

PhiData 一款開發AI搜索、agents智能體和工作流應用的AI框架

引言在人工智能領域，構建一個能夠理解並響應用戶需求的智能助手是一項挑戰性的任務。PhiData作爲一個開源框架，爲開發者提供了構建具有長期記憶、豐富知識和強大工具的AI助手的可能性。本文將介紹PhiData的核心優勢、應用示例以及如何使用

2024-05-24 14:19:55

你們線上突發OOM，是如何快速定位OOM問題？

當我們的請求進來，需要創建對象，那就需要去內存中申請空間，這時候如果內存滿了就會觸發FullGC,GC之後如果內存依然爆滿，這時候就會出現 OutOfMemeryError的異常。那如果說OOM我們的應用會掛掉嗎？其實不一定，如果某些請求

2024-05-24 14:16:15

一個註解搞定 SpringBoot 接口防刷

說明：使用了註解的方式進行對接口防刷的功能，非常高大上，本文章僅供參考一，技術要點：springboot的基本知識，redis基本操作，首先是寫一個註解類： import java.lang.annotation.Retention;i

2024-05-24 14:15:35

《最新出爐》系列入門篇-Python+Playwright自動化測試-47-自動滾動到元素出現的位置

1.簡介在我們日常工作中或者生活中，經常會遇到我們的頁面內容較多，一個屏幕範圍無法完整展示內容，我們就需要滾動滾動條去到我們想要的地方，如下圖頁面，我們雖然在豆瓣首頁，但是內容並不完整，如果我們想要直接點擊電影模塊中的選電影按鈕，是需要往

2024-05-24 14:15:25

cdn302跳轉

2024-05-24 14:14:35

刪除一個IP

刪除下面的172.16.15.102 IP eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc fq state UP qlen 1000 link/ether fa:

2024-05-24 14:14:35

$ git push -u origin "master" [rejected]

$ git push -u origin "master"To https://gitee.com/ee/0523.git ! [rejected] master -> master (non-fast-forward)err

2024-05-24 14:11:14

How do I read Japanese characters from a PDF?

How do I read Japanese characters from a PDF? Encoding CMaps in particular for CJK scripts are in a separate package.

2024-05-24 14:07:54

k8s運維面試題【轉】

常見的k8s運維面試題 1、簡述ETCD及其特點? etcd是一個用於配置共享和服務發現的鍵值存儲系統，能夠爲整個分佈式集羣存儲關鍵數據，協助集羣正常運轉服務端將配置信息存儲在etcd中，客戶端從etcd中得到配置信息，etcd監聽配置信

2024-05-24 14:05:53

使用interface化解一場因操作系統不同導致的編譯問題

場景描述起因：因項目需求，需要編寫一個agent, 需支持Linux和Windows操作系統。 Agent裏面有一個功能需要獲取到服務器上所有已經被佔用的端口。實現方式：針對不同的操作系統，實現方式有所不同 linux: 使用服務

2024-05-24 14:00:23

Nginx R31 doc-09-Serving Static Content 靜態內容

提供靜態內容配置 NGINX 和 NGINX Plus 以提供靜態內容，使用類型特定的根目錄，檢查文件存在性，並進行性能優化。本節介紹如何配置 NGINX 和 NGINX Plus 以提供靜態內容，如何定義搜索請求文件的路徑，如何設置索

2024-05-24 14:00:23

3326：練55.1 合影效果

【題目描述】小明和朋友們去爬香山，爲美麗的景色所陶醉，想合影留念。如果他們站成一排，男生全部在左（從拍照者的角度），並按照從矮到高的順序從左到右排，女生全部在右，並按照從高到矮的順序從左到右排，請問他們合影的效果是什麼樣的（所有人的身高都

2024-05-24 14:00:12

24小時熱門文章

最新文章

最新評論文章