原文链接：https://blog.csdn.net/u013185349/article/details/85158659

反作弊

反作弊主要业务流程：

常见作弊方式：

机器作弊：机器刷量、任务分发、流量劫持

人为作弊：QQ群/水军、直接人工、诱导

常见作弊手段：

电商：刷单，刷信誉，刷好评，职业差评师

支付平台：洗钱，诈骗

广告：数据造假、刷流量（引流—广告展示—广告点击—转化）

自媒体、社交软件：刷粉丝、刷点击、阅读量

搜索：seo使用作弊手段刷排名（案例：2015蜻蜓FM “普罗米修斯”、“宙斯”函数，修改转化量、流量在前端展现欺骗投资人，被对手反编译识破）

广告作弊涉及的点击类型分类：

1、按照是否找商品找服务为目的

2、是否按照是否恶意，有无真实转化为依据

（CPC基于点击计费的模式、CPA基于成交的点击进行收费）

点击四大分类：

无效点击（没有形成转化的意愿，仅仅浏览）

恶意点击（必须识别出来）

转化点击（真实意愿点击）

误点（不是以找商品为目的，例如内部人员点击，需要识别出来）

人群划分：

误点：员工、广告主自己、竞品销售中介、爬虫

恶意点击：同行、同行朋友、联盟站点、机器

反作弊策略应对框架：

数据层：鼠标轨迹行为、指纹数据、案例库、行为数据

特征层：离散指标、连续指标

行为识别层：点击识别模型、异常监测模型、流量识别模型、关系图模型、人群识别模型

策略应对层：规则

三层监控指标体系，提前预警：

运营指标监控：投诉率、转化率、撞线速率/频率、消耗速率、通过率

规则监控指标：拦截率、准确率、覆盖率

异常监控指标：IP维度、Cookie维度、计费名维度、广告维度、设备维度、鼠标轨迹维度

分类监控、分级响应：

1、针对监控情况、采用四级响应机制；

2、红色：非常严重，需要自动化采取短期策略应对，例如临时黑名单机制

3、橙色：较为严重，短信举报，要求4h内完成分析和短平快策略压制，后续进一步处理

机器学习在反作弊应用几个案例：

如关联规则、决策树模型：策略挖掘—规则自动提取

确定建模问题：自动发现规则、辅助策略设计；

应用：挖出的规则，上线到离线反作弊系统

评估指标：支持度、置信度、覆盖率、拦截率

流量聚类分级模型，kmeans算法：异常行为识别—流量识别

作用：支持流量分级打折策略

例如分为以下类别，特征描述：

1、主要为品牌浏览器入口，转化效果较好，用户粘性较高；

2、电话转化很好，包括搜索行为、点击行为、转化行为都较好；

3、电话转化良好，没有明显的特征异常；

4、电话转化率略偏低，详情页其它点击行为略偏少；

5、详情页停留时间短，转化效果特别差；

6、电话转化很好，无其它任何转化行为，专门点击商业广告，行为非常异常；

7、点击率高，无转化，行为非常异常.

如半监督或图算法：异常行为识别—基于关系发现：

作弊用户标签比较少，如何召回更多的数量？

借助半监督或图算法发现更多的异常用户·

SVM算法：异常行为识别—销售识别

作用：识别用户是否销售

数据来源：行为日志，聊天记录

惩罚系数C，选择RBF函数作为kernel的参数gamma的选择.

粗粒度搜索：

　　对大数据集，先选择一个较小的子集做粗粒度搜索；

　　选择较大的步长，找到一个最优的（c,g）局部区域.

细粒度搜索：

在局部区域，以较小的步长，找到全局最优的（c,g）

如图论与余弦距离：搜索引擎防作弊

图论：作弊的网站一般需要相互链接，以提高自己的排名，这样在互联网大图中形成一些Clique.图论中有专门发现Clique的方法.

余弦距离：那些卖链接的网站，都有大量的出链（这些出链的特点和不作弊的网站出链特点大不相同）.每一个网站到其他网站的出链数目可以作为一个向量，计算余弦距离.发现，有些网站的出链向量之间的余弦距离几乎为1.一般来讲这些网站通常是一个人建的，目的只有一个:卖链接.

在淘宝上，有一种算法叫做“千人千面算法”，首先来看下作弊的几个方面：

1、同IP

也就是说你朋友都不能买你的东西，因为你们两个人早晚是会在一起碰面的，两个人碰面就是IP碰面，所以，买你宝贝的那个人，你们两个人的IP永远不能相见，也就是说你们两个人永远不能相见!

2、性别

假如你的淘宝店铺卖的是连衣裙，老是有男买家隔三差五的在你家买这件宝贝，你觉着正常，男朋友帮买怎么了?我用男朋友的号买怎么了?可是算法认为你是在作弊!你是在刷宝贝!

3、行为

这种行为指的就是假如你在刷宝贝，你没有具体的流程，每一个帮你刷流量的人都是搜索关键词，找到你家宝贝，点击收藏，加入购物车，然后下单，你都觉着不可能，更别说算法了!

4、年龄

你家淘宝店铺卖的是丝袜，行，你男朋友帮你买，可是你找的人都有40岁往上的，谁家40岁的男人帮媳妇在网上买丝袜?最好就是你找18-30岁之间的女性刷宝贝是最正常不过的了!

5、能力

支付宝都是实名认证的，对我们的好多都了如执掌，你卖意大利名牌古弛，你却老是找一些大学生帮你刷单，这就肯定是有问题的，学生能力有限，没有工作，买这么名贵的皮具肯定也是有些问题的!

使用关联规则检测刷单作弊行为

最近发现我们平台上的个别内容提供商使用一些违规的手段，对自己所属的收费内容进行刷单作弊。从其他渠道以很优惠的价格购买代金券，在平台消费自己的项目内容，从而获得结算分成与成本的金额差价。

因为需要对该问题进一步重视和监控，我也在考虑一些检测方法，其中一个就是本文介绍的基于数据挖掘中的关联规则（Association Rules）的算法进行尝试分析。对于关联规则的算法原理在此就不赘述。

家喻户晓的一个利用关联规则的案例是沃尔玛啤酒尿布的案例，目的是发现客户购物篮中经常被同时购买的商品。本例与啤酒尿布案例类似。主要因为内容商使用低价购买的客户账号购买自己的商品，但基于以下分析，本案例中可能会产生较强的关联效应：

（1）对同一批内容商品进行购买，会节约作弊成本。

（2）由于客户帐号有限，必将会出现一个客户账号购买很多内容项目的现象。

而与沃尔玛的案例不同的是，沃尔玛的案例是探索的正向积极的事件，本例是要发现的是负向消极的事件。沃尔玛的案例中要求事件的支持度（support）要较高，即事件能够经常发生才能有意义，置信度（confidence）只要适当即可，不要求过高；而本例因为是需要稽查异常，所以不能要求支持度高，相反置信度一定要比较高，即当某时间发生以后，另一关联的时间也发生的概率要很高才行。

使用反作弊算法检测刷单作弊行为

以Amazon的Review算法为例：

001

Verified Purchase。直评已死，这个时候再去刷直评非但没有意义，反而可能会出现如上图群聊中出现的“上好评排名会跌”的情况。

所以要刷就刷VP吧。还记得年初的封号风波吗，这些卖家大多数是因为刷单被姐夫“秋后算账”；船长在之前的分享中有向大家提到一个刷单建议，模仿真实购买行为。

亚马逊希望所有的评论都是诚实的，而在他的监控中，如果我们能做到“仿真”，也就能避开惩罚了。具体如何模仿真实购买行为地刷单，我们根据下文的影响因素一一分析。

002

留评频率与间隔时间。留评频率越高，间隔时间越短，权重就越高。

如果一款产品不断地来好评，这就意味着该产品受欢迎。也就是说，你需要根据自己的产品特性来规划规划刷单的频率，留评的频率，留评间隔的时间。当然，时间和频率的把控同时也需要考虑到产品的销售周期，比如你不能在站点的冬季持续刷泳装的单并留评论，是吧。

既然说到时间和频率，大家在刷单刷评是需要注意，一般情况下，在买家真实购买行为中，账号成交量平均一个月最多10-20单，留评数量不超过10%，在越来越苛刻的评论政策之下，不超过5%是最好的。

也就是说，大家在选择刷单资源，或者自己组建刷单团队时，除了需要规划好在listing上留评的时间与频率，也需要根据成交情况、留评时间与频率筛选合适的买家账号。

003

字数、内容与比例，也就是评论内容的质量。刷单需求越大，刷单者的胃口也被养得很大，卖家们经常会花了很多钱却被随便一个“good”或者“wonderful”的五星敷衍了事，在现在新的算法之下，这类属于低价值的评论是对权重排名没有帮助的。

Review都有专员审核，亚马逊希望review能够真实反映产品的情况，给买家参考，避免产生不良购物体验，客观丰富完整的review内容是能够提高权重的。

现在刷评论的一个标准，要让买家当真，也要让姐夫当真。站在真实买家（产品购买者、使用者）的角度去客观评价这个产品，甚至不全是五星好评；根据客服提供的依据，还需要有有趣且幽默的评论内容并且数量要在最新10个reviews中占一定比例的，比如每10个评论（包括好评、中评和差评）至少1-2个有趣的评论，以此类推。

如果评论的内容不知道怎么下手，可以通过查询竞争对手的review，挑选靠前、内容较丰富并且“helpful”数量较多的VP评论模仿，切记是模仿不是照搬照抄。至于有趣的内容，最好搭配相关的、有趣的图片或视频，特别是童装、玩具这些婴儿的产品，可以利用的素材就更多了。

004

Review中的“helpful”数量。这是个陷阱！点击“helpful”（俗称“点赞”）也是需要买家账号，但如果你不小心用了一些“质量差”的买家账号刷点击，那就完蛋了。

首先，使用质量好的买家账号。上文中船长也有介绍到，真实买家账号成交量平均一个月最多10-20单，留评数量不超过10%，另外还需要注意的是账号使用年限和使用习惯，一般来说，越老的账号越好，但拒绝老僵尸号；并且，买家账号也要防关联，关联条件与卖家账号相同。

接着，用这些质量好的买家账号模仿真实的买家点赞行为。从登录买家账号到点赞，一般是需要经过这些步骤的：

1→搜索：通过亚马逊前台键入你的产品关键词，或者通过你的产品对应品类去搜索，也可以通过品牌名搜索（小卖家不建议直接搜索品牌名）。

2→对比：一页页去找你的listing，查找过程中随意点击几个别人家的listings浏览几秒钟，翻翻评价和Q&A，并在两三个产品页面停留时间稍久一些。

3→点赞：一番操作后找到你的产品，到评论区后也不要马上找到目标review点赞，可以浏览首页或前几页的评论，翻开折叠的回复查看，点开图片或者视频，甚至离开这个产品页面之后再回来浏览、点赞。

005

Review原星级分数，即原来Review星级的分数；这个影响因素已经没法去改变，但不代表原先分数低现在就没法提高，从其他因素着手去优化即可。

006

详情页面被点击次数、买家离开该详情页面次数、买家又再次返回该详情页面比率。其实就是要按照买家正常购买的顺序逻辑，换位思考，你在网购商品的时候是怎样操作的，就按照类似的顺序逻辑去刷单就是了。

除了review算法的改变，亚马逊也更新了“评论服务条款”，进一步保护review的真实性，同时也制定了惩罚政策，简单讲就是，操控评论，后果很严重。

但是，不刷单是不可能的，特别是对于新产品，没有销量就没有评论，没有评论就没有排名，没有排名就没有销量。

上文中船长给大家的建议是“模仿真实购买行为”的刷单方法，虽然复杂，成本也比较大，但是能降低一定的风险。当然，如果你是不刷单的乖乖卖家，除了坐等买家评价，你也该主动通过邮件索评增加真实review。

船长www.amzcaptain.com的【CRM-系统智能营销-索取好评】功能十分成熟了，并且配备英、法、德、意、西、日6语种的索评邮件模板，适应9大站点。

反作弊介绍

反作弊

在淘宝上，有一种算法叫做“千人千面算法”，首先来看下作弊的几个方面：

使用关联规则检测刷单作弊行为

使用反作弊算法检测刷单作弊行为

MySQL 核心模块揭秘 | 18 期 | 锁在内存里长什么样*

使用perf工具生成火焰图

HttpSecurity 是如何组装过滤器链的

数说海南——近6年海南各市县人口简单看

长序列中Transformers的高级注意力机制总结

大龄程序员思考

响应式界面控件DevExtreme * 更强的数据分析和可视化功能

Ubuntu常用命令（用一點記一點）

如何用機器學習做廣告反作弊（一）

個人紀錄Ubuntu使用

跑通Pytorch1.0版本的Faster-RCNN，並訓練自己的數據集（一）

記pytorch版本faster-rcnn的一些坑

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結