原文鏈接：https://www.zhihu.com/question/53627544

如何篩查虛假流量？如何預防作弊？

首先應用場景是什麼，廣告反作弊的種類很多，簡單說幾個應用場景：

按平臺分：PC、移動，不同的平臺玩法不一樣；
按照防作弊的時間段分：請求階段，實時扣費階段，離線計算階段；
……

說上邊的目的是：這個問題很難回答，因爲反作弊這個範疇本來就很大，但是必須要明確的一點是反作弊跟機器學習沒有必然的聯繫，反作弊的核心在於如何更快速、節省資源、高效的將作弊流量排除，而不是非得用機器學習來做。

-----------------分割線，很早之前寫的一篇水文，參考如下，同時建議重新編輯問題，或許能帶來更多回復--------------------------------

移動時代，在流量快速變現的利益驅動下，流量造假越發猖獗，流量造假形式和技術手段也越發高級。無論什麼形式的作弊，最後損失最大的永遠都是爲流量買單的“廣告主”。移動營銷時代，流量作弊的方式有哪些？同時該如何杜絕和應對虛假流量，減小損失？

傳統 PC 時代，IP、Cookie、User-Agent 很容易刷，那麼到了移動端，是不是設備信息就很難刷了呢？比如IMEI、IDFA。事實卻並非如此，不僅移動的設備信息容易且批量地刷，而且被識別出來的難度更高，更像真的一樣。

前段時間某監測公司說，貴司必須要實施SDK監測，一律按照MMA教條做事，鄙人心中淡淡一笑…

下面簡單介紹前幾年秒針發佈的一個《互聯網廣告反作弊技術白皮書》，期間所謂的揭祕了6種互聯網廣告作弊行爲，如下：

1.廣告CTR異常：

主要指虛擬點擊或惡意點擊，即Click/PV過高比例，或者起伏很大。

2.廣告訪問IP分佈異常：

通過Log日誌發現某幾個IP產生大量的點擊或者曝光數。

3.URL，訪問者指紋信息(瀏覽器，操作系統等)異常：

例如大量的點擊或者曝光數，都來自於同一版本的瀏覽器或操作系統，或者佔比過高;或者點擊或曝光的訪問者信息中帶有Robot/Spider等標識信息。

4.廣告點擊沒有對應的曝光請求：

如果廣告同時監測了曝光和點擊，廣告的點擊IP/MZID前都應該出現對應廣告的曝光，且絕大多數都應該出現在同時段的曝光日誌中。

5.廣告來源異常：

點擊或者曝光的Referer可以標記點擊或曝光的來源頁面，如果大量來源集中在某一頁面，且不是廣告所在的Web頁面，可能存在媒體在其他流量大的地方(如BBS)設置隱藏頁面來充當曝光和點擊。

6.廣告訪問時間分佈異常/規律

某些IP/MZID每分鐘定時出現在點擊/曝光日誌中，或者連續點擊/曝光的發生時間的間隔過於規律。

以上的確是一種解決反作弊的手段，但是我想說的是在幾年後的今天，這隻能解決一些“非暴力”刷流量的手段，當然也只能限於PC端的小問題了。當然作爲前錶廠員工，對公司獻出如此寶貴的白皮書深感“榮幸”。

移動流量作弊形式的主要形式：

刷廣告數據：

刷廣告曝光和廣告的點擊。如今的Android手機，不比當年的Windows XP 時代好。在用戶毫不知情的情況下，預裝或者下載了亂七八糟的應用的情況比比皆是，被各種流氓軟件留些後門已是常態，順理成章地爲黑色產業鏈做貢獻。移動廣告的銷售更加的程序化，按 CPM 與 CPC 的銷售是主流。在這樣的大環境下，按 CPM 與 CPC 購買的流量質量風險如何？可想而知。

來個小段子休息下，前幾年某知名視頻公司離職員工來到我司後，我們線下聊天，他告訴我說，在Android機下，你如果按照了某視頻軟件，那麼你的手機就是個肉雞，想幹什麼都行，我聽完後，不禁菊花一緊。爲何如此欺凌我等屌絲，Android機招你還是惹你了？從那我就發誓，努力賺錢，買蘋果，最後蘋果沒買成，倒是吃了不少蘋果…

所以，不要怪Android流量廣告主不喜歡，主要是耍流氓比比皆是，Android已是赤裸相見，廣告主喜歡iOS的朦朧美也是有情可原的。

刷下載，激活與留存數據：

除了積分牆這種APP 廣告主自發的刷下載行爲之外，不少廣告主還是花了大價錢在不同的廣告平臺、應用市場上做轉化效果推廣的。

既然 KPI 是下載量、激活量，那當然有非常多的辦法去衝KPI。即使要求高的留存，也難不倒這幫“專業”刷客。

現在刷客團隊非常“規範透明”，據某“知名專業刷客團隊帶頭大哥”透漏：PV 10000個0.3元（其中隨機攜帶點擊，真TM專業），實現App下載成本在0.2~0.8元，設備激活大概0.3~1元，設備激活+留存，一般需要1~1.5元。一塊五你買不了吃虧，一塊五你買不了上當，童叟無欺。

這讓我想起，前幾天有運營同學反饋說某知名旅遊App在我們平臺上投放時，之前50多一個激活，現在100多，而在其他平臺上投放時，激活成本一直非常穩定。WTF，這必須怪我們，我們平臺太實在，沒有爲其進行刷量，改天我就告訴運營同學，其他平臺激活成本多少錢，我們就着比他便宜1毛錢搞，便宜多了還不行。

那麼虛假流量是如何刷出來的呢？

原理較爲簡單，就是不斷變更設備信息，實現模擬行爲，批量造成想要的流量。

設備僞裝，主要通過篡改設備ID號或者使用模擬器等進行，並僞造虛假的網絡環境。現在已經可以實現移動設備 ID （MAC、IMEI、IDFA、Android ID）不重複、IP 地址離散、機型變換、時間分散。主要是集中於 Android 系統上，iOS 系統僞裝成本高很多。

當我近期調研了很多作弊手段後，由於現在反作弊在每個公司都是一個黑盒子（當然是個行業透明的黑盒子，只不過每家加密算法不太一樣而已），感覺作弊已經到了一個無法無天的境地。在某次和領導開會時，我開玩笑的提了一句“反作弊根本沒法反”。現在的作弊手段真的是環環相扣，已經成爲一個生態鏈，成爲一個生態市場。

當然，針對以上手段，現在也有監測公司提到，用硬件指紋標識，也就是多個ID作爲唯一標識，而且這個標識更改頻率非常高，這樣還是隻針對普通級別的刷流量行爲而設防。像那種留有後門的App，這種行爲是不行的。

還有一種聯盟反作弊手段，利用廣告點擊率上限和廣告主轉化數據進行作弊，站在反作弊的角度來看，這種是飲鴆止渴，解決不了真正作弊行爲。

還有一種就是利用機器學習，根據一段時間的表現，對設備id進行健康度標識，這種成本太高，還有就是對於那種隨機生成設備id的行爲也無法標識。

反作弊任重而道遠。

最後，我們一定要上升到哲學層次裝一把，要不有損我們一貫裝B的風格。

反作弊不是爲了反而反，我們一定有我們的商業目標，在這個博弈的社會，說白了，大家都是混碗飯吃，所謂打工的何必難爲打工的。我們要做的就是完成商業目標。舉個例子，如果我們要做移動聯盟，那麼對於這種刷激活、留存的流量，我們是否要防，當然是No！歡迎還來不及呢。

如果我們是廣告主，是不是也一定要防這種刷量和留存，就看你怎麼刷，如果你能在App排行榜上也給我刷上去，那麼省了廣告主的事了。

（就像前段時間某新聞App和某監測公司掐架一樣，爲了一個DAU吵個不停，哎，世道啊。）

如果廣告主最終流量上去了，甭管真的假的，就可以變現了，然後再坑別的廣告主的錢，大家你坑我我坑你，最後錢才能流通，說大了這是“爲國家解決就業問題”，還不快謝謝作弊的主（哈哈）。

所以某種程度上，我們要做到反我們該反的作弊流量，留我們該留的流量。世界這下就變得和諧多了。

發佈於公衆號：計算廣告那些事兒

如何用機器學習做廣告反作弊（二）

如何篩查虛假流量？如何預防作弊？

還有一種就是利用機器學習，根據一段時間的表現，對設備id進行健康度標識，這種成本太高，還有就是對於那種隨機生成設備id的行爲也無法標識。

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（二）使用kube-vip實現集羣VIP訪問

企業大模型如何成爲自己數據的“百科全書”？

本地SSL證書過期輸入命令在IIS自動生成

.NET週刊【5月第2期 2024-05-12】

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（一）部署K8s

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（三）數據卷掛載NFS（網絡文件系統）

Ubuntu常用命令（用一點記一點）

如何用機器學習做廣告反作弊（一）

個人紀錄Ubuntu使用

跑通Pytorch1.0版本的Faster-RCNN，並訓練自己的數據集（一）

記pytorch版本faster-rcnn的一些坑

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

如何用機器學習做廣告反作弊（二）

如何篩查虛假流量？ 如何預防作弊？

還有一種就是利用機器學習，根據一段時間的表現，對設備id進行健康度標識，這種成本太高，還有就是對於那種隨機生成設備id的行爲也無法標識。

如何篩查虛假流量？如何預防作弊？