如何用机器学习做广告反作弊(一)

如何筛查虚假流量? 如何预防作弊?

知乎问答记录,仅供学习参考

作者:李小喵
链接:https://www.zhihu.com/question/53627544/answer/337003640
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
 

首先,电脑客户端的广告流量反作弊方案已经非常成熟了,就不多讲了,主要讲一下很多人不太熟悉的移动端的广告反作弊吧(很多第三方移动广告统计平台的计算方式都超级弱,弱到渣渣都不剩,至于原因,自己去体会,毕竟他们只想挣钱)。

 

1、移动广告作弊通常都包括哪些?

比较常见的是刷量,撞库。
  • 什么是刷量:最常见的是:刷点击,刷激活,刷留存。
  • 什么是撞库:作弊广告渠道商采集了非常多的设备信息,他们会疯狂往对方广告点击日志服务器发送设备点击信息,当激活日志服务器采集到对应设备的激活,就会认为是该作弊渠道商的。逻辑如下图:

 

2、广告反作弊体系产品

通常我们在设计广告反作弊产品时,会包含两个部分:反作弊策略和历史黑库;
其中历史黑库包含:黑渠道库,黑设备库和黑ip库。

 

♦第一个:反作弊策略的逻辑:主要基于广告点击频次和频率,加上一些行为规则。

由于移动广告有按点击付费,有按激活付费,有按留存付费,因为反作弊策略也主要是针对这这些方面。

点击反作弊

单设备单渠道点击次数:

  • 5s内单设备,单渠道,点击大于等于2次小于5次,该设备在该渠道的点击标记为异常,激活默认为自然量;点击大于等于5次,该设备在该渠道的点击和激活都标记为异常。
  • 一天内单设备,单渠道,点击大于等于3次小于6次,该设备在该渠道的点击标记为异常,激活默认为自然量;点击大于等于6次,该设备在该渠道的点击和激活都标记为异常。
  • 一周内单设备,单渠道,点击大于等于12次小于15次,该设备在该渠道的点击标记为异常,激活默认为自然量;点击大于等于15次,该设备在该渠道的点击和激活都标记为异常。

单ip单渠道点击次数:

  • 一天内,单ip,单渠道,点击大于等于30次,则该IP下的点击和激活标记为异常。

激活反作弊

单设备单渠道激活次数:

  • 一天内单设备,单渠道,激活app大于等于3次小于5次,该设备在该渠道的点击标记为异常,激活默认为自然量;激活大于等于5次,该设备在该渠道的点击和激活都标记为异常。
  • 一周内单设备,单渠道,激活app大于等于4次小于6次,该设备在该渠道的点击标记为异常,激活默认为自然量;激活大于等于6次,该设备在该渠道的点击和激活都标记为异常。

单ip单渠道激活次数:

  • 一天内,单ip,单渠道,激活大于等于30次,则该IP下超出的点击和激活标记为异常。

点击到激活时间差:

  • 从点击到激活的时间差小于等于5s,该设备在该渠道的点击和激活标记为异常。

♦第二个:历史黑库:利用历史数据建黑库。

黑渠道库:

黑渠道库就是,该渠道的设备只要存在于任何一个渠道的黑设备库里,则该渠道的该设备的点击和激活均为异常。

黑渠道库规则:

  • 3天点击数大于1w,且激活率在0.01%以下的渠道,进入黑渠道库。

黑设备库:

每一个渠道都有一个黑设备库,都需要参与计算。
单天的激活率小于等于某个值使用所有的黑名单库。
单天的激活率大于等于某个值出黑名单库。
单渠道的黑设备,在该渠道未来的点击和激活均标记为异常。

黑设备库规则:

  • 5s内点击3个以上广告链接的设备。
  • 一天内点击5个以上广告链接的设备。
  • 一天内激活3个以上app的设备。
  • 一周内,激活3个以上app的设备,且次日留存均为0。
  • 一周内,激活3个以上app的设备,且7日内,每日使用时长方差小于等于3分钟。
  • 渠道数据设备指纹的唯一性不匹配。

黑ip库:

每一个渠道都有一个黑ip库,都需要参与计算。
单天的激活率小于等于某个值使用黑名单库。
单天的激活率大于等于某个值出黑名单库。
单渠道的黑IP,在该渠道未来的点击和激活均标记为异常。

单渠道的黑IP库规则:

  • 一天内,点击大于等于50次的IP。--50以上ip占比0.47%
  • 一天内,激活大于等于10次的IP。--激活大于10个的仅3个人,可见刷IP点击之多,占比0.054%
  • 一天内,激活app次数/激活设备大于等于2的IP。
  • 一周内,激活5个以上app的ip,且次日留存率均为0。
  • 一周内,激活5个以上app的ip,且7日内,每日使用时长方差小于等于3分钟。

------------------------------------

划重点:以上策略的数据,是做了很多数据调研后的结果,仅做参考,在参考和学习的过程中,需要结合自己公司的真实数据来分析。

------------------------------------

ps,对于90%的公司,基于规则的反作弊已足够(毕竟很多公司连基于规则的反作弊都不会做),对于关于机器学习,idmapping等相关的反作弊,需要很多的积累。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章