python—你不知道的反爬虫措施！

原創

2020-02-27 02:04

1.反爬虫是因为爬虫才诞生的，想要很好的运用反爬虫，就要先清楚爬虫及爬虫机制。

先了解一下爬虫，反爬虫的概念，如下：

爬虫：使用任何技术及手段，批量抓取网站信息的一种方法，且关键在于批量。

反爬虫：即为使用任何技术及手段，阻止被人抓取自己网站信息的一种方法，关键在于批量和减少阻止过程中的误伤。

2.反爬虫是针对爬虫设计的，一般架构如下：
对请求进行数据统计等预处理，便于识别爬虫
识别是否是爬虫
针对识别结果，进行适当处理
通常网站为力避免普通用户遭到误伤，而做不到完全的拦截爬虫机制的！

3.反爬虫的一些措施：

反爬虫的关键在于阻止被批量爬取，重点在批量。
反爬虫技术的核心在于不断变更规则，比如不断变更验证码。

我们在内容上可以做如下文章：

网站不同地方的文本内容添加不同的自带标签，增加对方数据清理难度
关键数据由文本转图片，甚至添加水印等。目前市场上图片ocr识别无法有效转文字，让对方即使获取了图片也无法有效使用。

网站相关页面的列表查询，限制总页数的展示。比如数据一共1K页，相关接口却只对外展示前十页。对方找不到入口最多爬取10页数据。

间接关闭网站核心数据查看入口，比如内容的查看像百度文库一样改为word、pdf或者ppt下载模式，高频下载需要验证码或者账号积分

网站不提供注册入口，或者注册需要内部推荐或者评审，加大爬虫方获取账号的难度。

网站的请求url复杂化，比如弄的像淘宝一样没有规律，id改为UUID等。

前端页面尽可能不暴露数据的唯一键，对唯一键如主键id等进行伪装，可以增加对方爬取后的去重成本。因为对方爬数据可能是在你的多个模块页面进行多维度爬取，会有大量的重复数据。

前端html页面别一次性加载列表，根据用户点击js动态加载。即查询页面源码时，只能看到列表的第一条数据。

当确定访问异常时，大量返回虚假数据。爬虫几乎没有判断数据真假的能力，只有人才有。对方发现的越晚，我们的处理应对时间就越充裕。

核心数据提高安全等级，单独加密等。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.