python—你不知道的反爬虫措施!

1.反爬虫是因为爬虫才诞生的,想要很好的运用反爬虫,就要先清楚爬虫及爬虫机制。

先了解一下爬虫,反爬虫的概念,如下:

爬虫:使用任何技术及手段,批量抓取网站信息的一种方法,且关键在于 批量。

反爬虫:即为使用任何技术及手段,阻止被人 抓取自己网站信息的一种方法,关键在于批量和减少阻止过程中的误伤。

2.反爬虫是针对爬虫设计的,一般架构如下:
对请求进行数据统计等预处理,便于识别爬虫
识别是否是爬虫
针对识别结果,进行适当处理
通常网站为力避免普通用户遭到 误伤,而做不到完全的拦截爬虫机制的!

3.反爬虫的一些措施:

反爬虫的关键在于阻止被批量爬取,重点在批量。
反爬虫技术的核心在于不断变更规则,比如不断变更验证码。

我们在内容上可以做如下文章:

网站不同地方的文本内容添加不同的自带标签,增加对方数据清理难度
关键数据由文本转图片,甚至添加水印等。目前市场上图片ocr识别无法有效转文字,让对方即使获取了图片也无法有效使用。

网站相关页面的列表查询,限制总页数的展示。比如数据一共1K页,相关接口却只对外展示前十页。对方找不到入口最多爬取10页数据。

间接关闭网站核心数据查看入口,比如内容的查看像百度文库一样改为word、pdf或者ppt下载模式,高频下载需要验证码或者账号积分

网站不提供注册入口,或者注册需要内部推荐或者评审,加大爬虫方获取账号的难度。

网站的请求url复杂化,比如弄的像淘宝一样没有规律,id改为UUID等。

前端页面尽可能不暴露数据的唯一键,对唯一键如主键id等进行伪装,可以增加对方爬取后的去重成本。因为对方爬数据可能是在你的多个模块页面进行多维度爬取,会有大量的重复数据。

前端html页面别一次性加载列表,根据用户点击js动态加载。即查询页面源码时,只能看到列表的第一条数据。

当确定访问异常时,大量返回虚假数据。爬虫几乎没有判断数据真假的能力,只有人才有。对方发现的越晚,我们的处理应对时间就越充裕。

核心数据提高安全等级,单独加密等。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章