如何用機器學習做廣告反作弊(一)

如何篩查虛假流量? 如何預防作弊?

知乎問答記錄,僅供學習參考

作者:李小喵
鏈接:https://www.zhihu.com/question/53627544/answer/337003640
來源:知乎
著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。
 

首先,電腦客戶端的廣告流量反作弊方案已經非常成熟了,就不多講了,主要講一下很多人不太熟悉的移動端的廣告反作弊吧(很多第三方移動廣告統計平臺的計算方式都超級弱,弱到渣渣都不剩,至於原因,自己去體會,畢竟他們只想掙錢)。

 

1、移動廣告作弊通常都包括哪些?

比較常見的是刷量,撞庫。
  • 什麼是刷量:最常見的是:刷點擊,刷激活,刷留存。
  • 什麼是撞庫:作弊廣告渠道商採集了非常多的設備信息,他們會瘋狂往對方廣告點擊日誌服務器發送設備點擊信息,當激活日誌服務器採集到對應設備的激活,就會認爲是該作弊渠道商的。邏輯如下圖:

 

2、廣告反作弊體系產品

通常我們在設計廣告反作弊產品時,會包含兩個部分:反作弊策略和歷史黑庫;
其中歷史黑庫包含:黑渠道庫,黑設備庫和黑ip庫。

 

♦第一個:反作弊策略的邏輯:主要基於廣告點擊頻次和頻率,加上一些行爲規則。

由於移動廣告有按點擊付費,有按激活付費,有按留存付費,因爲反作弊策略也主要是針對這這些方面。

點擊反作弊

單設備單渠道點擊次數:

  • 5s內單設備,單渠道,點擊大於等於2次小於5次,該設備在該渠道的點擊標記爲異常,激活默認爲自然量;點擊大於等於5次,該設備在該渠道的點擊和激活都標記爲異常。
  • 一天內單設備,單渠道,點擊大於等於3次小於6次,該設備在該渠道的點擊標記爲異常,激活默認爲自然量;點擊大於等於6次,該設備在該渠道的點擊和激活都標記爲異常。
  • 一週內單設備,單渠道,點擊大於等於12次小於15次,該設備在該渠道的點擊標記爲異常,激活默認爲自然量;點擊大於等於15次,該設備在該渠道的點擊和激活都標記爲異常。

單ip單渠道點擊次數:

  • 一天內,單ip,單渠道,點擊大於等於30次,則該IP下的點擊和激活標記爲異常。

激活反作弊

單設備單渠道激活次數:

  • 一天內單設備,單渠道,激活app大於等於3次小於5次,該設備在該渠道的點擊標記爲異常,激活默認爲自然量;激活大於等於5次,該設備在該渠道的點擊和激活都標記爲異常。
  • 一週內單設備,單渠道,激活app大於等於4次小於6次,該設備在該渠道的點擊標記爲異常,激活默認爲自然量;激活大於等於6次,該設備在該渠道的點擊和激活都標記爲異常。

單ip單渠道激活次數:

  • 一天內,單ip,單渠道,激活大於等於30次,則該IP下超出的點擊和激活標記爲異常。

點擊到激活時間差:

  • 從點擊到激活的時間差小於等於5s,該設備在該渠道的點擊和激活標記爲異常。

♦第二個:歷史黑庫:利用歷史數據建黑庫。

黑渠道庫:

黑渠道庫就是,該渠道的設備只要存在於任何一個渠道的黑設備庫裏,則該渠道的該設備的點擊和激活均爲異常。

黑渠道庫規則:

  • 3天點擊數大於1w,且激活率在0.01%以下的渠道,進入黑渠道庫。

黑設備庫:

每一個渠道都有一個黑設備庫,都需要參與計算。
單天的激活率小於等於某個值使用所有的黑名單庫。
單天的激活率大於等於某個值出黑名單庫。
單渠道的黑設備,在該渠道未來的點擊和激活均標記爲異常。

黑設備庫規則:

  • 5s內點擊3個以上廣告鏈接的設備。
  • 一天內點擊5個以上廣告鏈接的設備。
  • 一天內激活3個以上app的設備。
  • 一週內,激活3個以上app的設備,且次日留存均爲0。
  • 一週內,激活3個以上app的設備,且7日內,每日使用時長方差小於等於3分鐘。
  • 渠道數據設備指紋的唯一性不匹配。

黑ip庫:

每一個渠道都有一個黑ip庫,都需要參與計算。
單天的激活率小於等於某個值使用黑名單庫。
單天的激活率大於等於某個值出黑名單庫。
單渠道的黑IP,在該渠道未來的點擊和激活均標記爲異常。

單渠道的黑IP庫規則:

  • 一天內,點擊大於等於50次的IP。--50以上ip佔比0.47%
  • 一天內,激活大於等於10次的IP。--激活大於10個的僅3個人,可見刷IP點擊之多,佔比0.054%
  • 一天內,激活app次數/激活設備大於等於2的IP。
  • 一週內,激活5個以上app的ip,且次日留存率均爲0。
  • 一週內,激活5個以上app的ip,且7日內,每日使用時長方差小於等於3分鐘。

------------------------------------

劃重點:以上策略的數據,是做了很多數據調研後的結果,僅做參考,在參考和學習的過程中,需要結合自己公司的真實數據來分析。

------------------------------------

ps,對於90%的公司,基於規則的反作弊已足夠(畢竟很多公司連基於規則的反作弊都不會做),對於關於機器學習,idmapping等相關的反作弊,需要很多的積累。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章