爬蟲 解決網頁ip限制

方法一:

user agent 僞裝和輪換 
使用代理 ip 和輪換 
cookies 的處理,有的網站對登陸用戶政策寬鬆些

方法二:

儘可能的模擬用戶行爲: 
UserAgent經常換一換 
訪問時間間隔設長一點,訪問時間設置爲隨機數; 
訪問頁面的順序也可以隨機着來

方法三:

網站封的依據一般是單位時間內特定IP的訪問次數. 我是將採集的任務按 目標站點的IP進行分組 通過控制每個IP 
在單位時間內發出任務的個數,來避免被封.當然,這個前題是你採集很多網站.如果只是採集一個網站,那麼只能通過多外部IP的方式來實現了.

方法四:

  1. 對爬蟲抓取進行壓力控制;
  2. 可以考慮使用代理的方式訪問目標站點。

-降低抓取頻率,時間設置長一些,訪問時間採用隨機數 
-頻繁切換UserAgent(模擬瀏覽器訪問) 
-多頁面數據,隨機訪問然後抓取數據 
-更換用戶IP

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章