爬虫 解决网页ip限制

方法一:

user agent 伪装和轮换 
使用代理 ip 和轮换 
cookies 的处理,有的网站对登陆用户政策宽松些

方法二:

尽可能的模拟用户行为: 
UserAgent经常换一换 
访问时间间隔设长一点,访问时间设置为随机数; 
访问页面的顺序也可以随机着来

方法三:

网站封的依据一般是单位时间内特定IP的访问次数. 我是将采集的任务按 目标站点的IP进行分组 通过控制每个IP 
在单位时间内发出任务的个数,来避免被封.当然,这个前题是你采集很多网站.如果只是采集一个网站,那么只能通过多外部IP的方式来实现了.

方法四:

  1. 对爬虫抓取进行压力控制;
  2. 可以考虑使用代理的方式访问目标站点。

-降低抓取频率,时间设置长一些,访问时间采用随机数 
-频繁切换UserAgent(模拟浏览器访问) 
-多页面数据,随机访问然后抓取数据 
-更换用户IP

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章