Scrapy爬蟲系列筆記之十:反爬蟲之動態代理,限速,登錄以及驗證碼_by_書訢

原創

SX_csu2016sw

2018-08-22 08:41

3.2ip代理

反爬:發現某個時段訪問大量增加，ip相同，需要登錄才能訪問
處理方式:IP代理池，利用免費資源

動態ip代理：
思路很簡單直接書寫中間件利用代理(同user-agent在settings文件中放了一堆的代理ip地址和端口，資源見“西刺網”)

from settings import random_proxy
class RandomProxyMiddleware(object):
  #動態設置ip代理
  def process_request(self, request, spider):
   import random 
   random_index=random.randint(0,len(proxy_list)-1)
   random_proxy = proxy_list[random_index]
   request.meta["proxy"]=random_proxy 
這個方式有點low，每天需要自己去西刺網copy

其實可以自己寫爬蟲將ip和端口爬下來，然後再從文件或者數據庫獲取使用，返回碼無效的ip和端口進行刪除

3.2註冊賬號，每次請求帶cookie

反爬:要求進行登錄的時候
處理方式:註冊賬號，每次請求的時候帶上Cookie
同樣先放在settings.py文件中，設置Cookie只是對headers進行一下處理

3.4模仿人限制速度

反爬:請求過於頻繁，從而對ip訪問頻率進行限制
處理方式:限速
具體方式見官方文檔

百度scrapy-chs
見配置一下就好了

3.5驗證碼識別

反爬:彈出驗證碼

處理方式:
1.在線打碼平臺
百度一下，調用接口即可
2.機器學習驗證碼識別

github上模型使用

3.6selenium進行動態網站數據爬取

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Scrapy爬蟲系列筆記之十:反爬蟲之動態代理,限速,登錄以及驗證碼_by_書訢

3.2ip代理

3.2註冊賬號，每次請求帶cookie

3.4模仿人限制速度

3.5驗證碼識別

3.6selenium進行動態網站數據爬取

[Visual Studio]MFC遊戲開發之回合制對戰系統二_by書訢

[Visual Studio]MFC遊戲開發之回合制對戰系統_by書訢

繼承重寫自動轉型/ 多態

在Android Studio中進行單元測試和UI測試

詳細研究java內存中的對象

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結