學習資源入口https://www.bilibili.com/video/av19057145/?p=19
Cookies池介紹
- 有些網站需要登錄才能進行爬取,就需要登錄的cookies
- 爬取過程如果頻率過高會導致封號
- 需要維護多個賬號的cookies池實現大規模爬取
Cookies池的要求
- 需要可以實現許多賬號的自動化登錄
- 過期cookies定期驗證篩選
- cookies池作爲獨立模塊使用提供外部接口
Cookies池架構
維護cookies池過程
源碼入口:https://github.com/Python3WebSpider/CookiesPool
使用在之前維護代理池時安裝的庫,若尚未安裝,可以到源碼requirements目錄下
輸入命令pip install -r requirements.txt
接口配置
# Redis數據庫地址
REDIS_HOST = 'localhost'
# Redis端口
REDIS_PORT = 6379
# Redis密碼,如無填None
REDIS_PASSWORD = 'foobared'
# 產生器使用的瀏覽器
BROWSER_TYPE = 'Chrome'
# 產生器類,如擴展其他站點,請在此配置
GENERATOR_MAP = {
'weibo': 'WeiboCookiesGenerator'
}
# 測試類,如擴展其他站點,請在此配置
TESTER_MAP = {
'weibo': 'WeiboValidTester'
}
# 檢測器檢測接口
TEST_URL_MAP = {
'weibo': 'https://m.weibo.cn/api/container/getIndex?uid=1804544030&type=uid&page=1&containerid=1076031804544030'
}
# 產生器和驗證器循環週期
CYCLE = 120
# API地址和端口
API_HOST = '0.0.0.0'
API_PORT = 5000
進程開關配置
#在config.py裏修改,true開,false關
# 產生器開關,模擬登錄添加Cookies
GENERATOR_PROCESS = True
# 驗證器開關,循環檢測數據庫中Cookies是否可用,不可用刪除
VALID_PROCESS = True
# API接口服務
API_PROCESS = True
賬號自行購買
導入賬號
終端使用命令行跳轉到源碼importer目錄下
輸入命令python importer.py
導入賬號後就可以運行了