分佈式爬蟲環境搭建——Cookies池

學習資源入口https://www.bilibili.com/video/av19057145/?p=19

Cookies池介紹

  • 有些網站需要登錄才能進行爬取,就需要登錄的cookies
  • 爬取過程如果頻率過高會導致封號
  • 需要維護多個賬號的cookies池實現大規模爬取

Cookies池的要求

  • 需要可以實現許多賬號的自動化登錄
  • 過期cookies定期驗證篩選
  • cookies池作爲獨立模塊使用提供外部接口

Cookies池架構

在這裏插入圖片描述

維護cookies池過程

源碼入口:https://github.com/Python3WebSpider/CookiesPool
使用在之前維護代理池時安裝的庫,若尚未安裝,可以到源碼requirements目錄下
輸入命令pip install -r requirements.txt

接口配置

# Redis數據庫地址
REDIS_HOST = 'localhost'

# Redis端口
REDIS_PORT = 6379

# Redis密碼,如無填None
REDIS_PASSWORD = 'foobared'

# 產生器使用的瀏覽器
BROWSER_TYPE = 'Chrome'

# 產生器類,如擴展其他站點,請在此配置
GENERATOR_MAP = {
    'weibo': 'WeiboCookiesGenerator'
}

# 測試類,如擴展其他站點,請在此配置
TESTER_MAP = {
    'weibo': 'WeiboValidTester'
}

# 檢測器檢測接口
TEST_URL_MAP = {
    'weibo': 'https://m.weibo.cn/api/container/getIndex?uid=1804544030&type=uid&page=1&containerid=1076031804544030'
}

# 產生器和驗證器循環週期
CYCLE = 120

# API地址和端口
API_HOST = '0.0.0.0'
API_PORT = 5000

在這裏插入圖片描述
進程開關配置

#在config.py裏修改,true開,false關
# 產生器開關,模擬登錄添加Cookies
GENERATOR_PROCESS = True
# 驗證器開關,循環檢測數據庫中Cookies是否可用,不可用刪除
VALID_PROCESS = True
# API接口服務
API_PROCESS = True

賬號自行購買

導入賬號
終端使用命令行跳轉到源碼importer目錄下
輸入命令python importer.py

導入賬號後就可以運行了
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章