如何用機器學習做廣告反作弊(二)

原文鏈接:https://www.zhihu.com/question/53627544

如何篩查虛假流量? 如何預防作弊?

 

首先應用場景是什麼,廣告反作弊的種類很多,簡單說幾個應用場景:

  1. 按平臺分:PC、移動,不同的平臺玩法不一樣;
  2. 按照防作弊的時間段分:請求階段,實時扣費階段,離線計算階段;
  3. ……

說上邊的目的是:這個問題很難回答,因爲反作弊這個範疇本來就很大,但是必須要明確的一點是反作弊跟機器學習沒有必然的聯繫,反作弊的核心在於如何更快速、節省資源、高效的將作弊流量排除,而不是非得用機器學習來做。

 

-----------------分割線,很早之前寫的一篇水文,參考如下,同時建議重新編輯問題,或許能帶來更多回復--------------------------------

 

移動時代,在流量快速變現的利益驅動下,流量造假越發猖獗,流量造假形式和技術手段也越發高級。無論什麼形式的作弊,最後損失最大的永遠都是爲流量買單的“廣告主”。移動營銷時代,流量作弊的方式有哪些?同時該如何杜絕和應對虛假流量,減小損失?

傳統 PC 時代,IP、Cookie、User-Agent 很容易刷,那麼到了移動端,是不是設備信息就很難刷了呢?比如IMEI、IDFA。事實卻並非如此,不僅移動的設備信息容易且批量地刷,而且被識別出來的難度更高,更像真的一樣。

前段時間某監測公司說,貴司必須要實施SDK監測,一律按照MMA教條做事,鄙人心中淡淡一笑…

下面簡單介紹前幾年秒針發佈的一個《互聯網廣告反作弊技術白皮書》,期間所謂的揭祕了6種互聯網廣告作弊行爲,如下:

1.廣告CTR異常:

主要指虛擬點擊或惡意點擊,即Click/PV過高比例,或者起伏很大。

2.廣告訪問IP分佈異常:

通過Log日誌發現某幾個IP產生大量的點擊或者曝光數。

3.URL,訪問者指紋信息(瀏覽器,操作系統等)異常:

例如大量的點擊或者曝光數,都來自於同一版本的瀏覽器或操作系統,或者佔比過高;或者點擊或曝光的訪問者信息中帶有Robot/Spider等標識信息。

4.廣告點擊沒有對應的曝光請求:

如果廣告同時監測了曝光和點擊,廣告的點擊IP/MZID前都應該出現對應廣告的曝光,且絕大多數都應該出現在同時段的曝光日誌中。

5.廣告來源異常:

點擊或者曝光的Referer可以標記點擊或曝光的來源頁面,如果大量來源集中在某一頁面,且不是廣告所在的Web頁面,可能存在媒體在其他流量大的地方(如BBS)設置隱藏頁面來充當曝光和點擊。

6.廣告訪問時間分佈異常/規律

某些IP/MZID每分鐘定時出現在點擊/曝光日誌中,或者連續點擊/曝光的發生時間的間隔過於規律。

以上的確是一種解決反作弊的手段,但是我想說的是在幾年後的今天,這隻能解決一些“非暴力”刷流量的手段,當然也只能限於PC端的小問題了。當然作爲前錶廠員工,對公司獻出如此寶貴的白皮書深感“榮幸”。

移動流量作弊形式的主要形式:

刷廣告數據:

刷廣告曝光和廣告的點擊。如今的Android手機,不比當年的Windows XP 時代好。在用戶毫不知情的情況下,預裝或者下載了亂七八糟的應用的情況比比皆是,被各種流氓軟件留些後門已是常態,順理成章地爲黑色產業鏈做貢獻。移動廣告的銷售更加的程序化,按 CPM 與 CPC 的銷售是主流。在這樣的大環境下,按 CPM 與 CPC 購買的流量質量風險如何?可想而知。

來個小段子休息下,前幾年某知名視頻公司離職員工來到我司後,我們線下聊天,他告訴我說,在Android機下,你如果按照了某視頻軟件,那麼你的手機就是個肉雞,想幹什麼都行,我聽完後,不禁菊花一緊。爲何如此欺凌我等屌絲,Android機招你還是惹你了?從那我就發誓,努力賺錢,買蘋果,最後蘋果沒買成,倒是吃了不少蘋果…

所以,不要怪Android流量廣告主不喜歡,主要是耍流氓比比皆是,Android已是赤裸相見,廣告主喜歡iOS的朦朧美也是有情可原的。

刷下載,激活與留存數據:

除了積分牆這種APP 廣告主自發的刷下載行爲之外,不少廣告主還是花了大價錢在不同的廣告平臺、應用市場上做轉化效果推廣的。

既然 KPI 是下載量、激活量,那當然有非常多的辦法去衝KPI。即使要求高的留存,也難不倒這幫“專業”刷客。

現在刷客團隊非常“規範透明”,據某“知名專業刷客團隊帶頭大哥”透漏:PV 10000個0.3元(其中隨機攜帶點擊,真TM專業),實現App下載成本在0.2~0.8元,設備激活大概0.3~1元,設備激活+留存,一般需要1~1.5元。一塊五你買不了吃虧,一塊五你買不了上當,童叟無欺。

這讓我想起,前幾天有運營同學反饋說某知名旅遊App在我們平臺上投放時,之前50多一個激活,現在100多,而在其他平臺上投放時,激活成本一直非常穩定。WTF,這必須怪我們,我們平臺太實在,沒有爲其進行刷量,改天我就告訴運營同學,其他平臺激活成本多少錢,我們就着比他便宜1毛錢搞,便宜多了還不行。

那麼虛假流量是如何刷出來的呢?

原理較爲簡單,就是不斷變更設備信息,實現模擬行爲,批量造成想要的流量。

設備僞裝,主要通過篡改設備ID號或者使用模擬器等進行,並僞造虛假的網絡環境。現在已經可以實現移動設備 ID (MAC、IMEI、IDFA、Android ID)不重複、IP 地址離散、機型變換、時間分散。主要是集中於 Android 系統上,iOS 系統僞裝成本高很多。

當我近期調研了很多作弊手段後,由於現在反作弊在每個公司都是一個黑盒子(當然是個行業透明的黑盒子,只不過每家加密算法不太一樣而已),感覺作弊已經到了一個無法無天的境地。在某次和領導開會時,我開玩笑的提了一句“反作弊根本沒法反”。現在的作弊手段真的是環環相扣,已經成爲一個生態鏈,成爲一個生態市場。

當然,針對以上手段,現在也有監測公司提到,用硬件指紋標識,也就是多個ID作爲唯一標識,而且這個標識更改頻率非常高,這樣還是隻針對普通級別的刷流量行爲而設防。像那種留有後門的App,這種行爲是不行的。

還有一種聯盟反作弊手段,利用廣告點擊率上限和廣告主轉化數據進行作弊,站在反作弊的角度來看,這種是飲鴆止渴,解決不了真正作弊行爲。

還有一種就是利用機器學習,根據一段時間的表現,對設備id進行健康度標識,這種成本太高,還有就是對於那種隨機生成設備id的行爲也無法標識。

反作弊任重而道遠。

最後,我們一定要上升到哲學層次裝一把,要不有損我們一貫裝B的風格。

反作弊不是爲了反而反,我們一定有我們的商業目標,在這個博弈的社會,說白了,大家都是混碗飯吃,所謂打工的何必難爲打工的。我們要做的就是完成商業目標。舉個例子,如果我們要做移動聯盟,那麼對於這種刷激活、留存的流量,我們是否要防,當然是No!歡迎還來不及呢。

如果我們是廣告主,是不是也一定要防這種刷量和留存,就看你怎麼刷,如果你能在App排行榜上也給我刷上去,那麼省了廣告主的事了。

(就像前段時間某新聞App和某監測公司掐架一樣,爲了一個DAU吵個不停,哎,世道啊。)

如果廣告主最終流量上去了,甭管真的假的,就可以變現了,然後再坑別的廣告主的錢,大家你坑我我坑你,最後錢才能流通,說大了這是“爲國家解決就業問題”,還不快謝謝作弊的主(哈哈)。

所以某種程度上,我們要做到反我們該反的作弊流量,留我們該留的流量。世界這下就變得和諧多了。

發佈於公衆號:計算廣告那些事兒

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章