愛奇藝流量反作弊的“術”與“道”

原文鏈接:https://baijiahao.baidu.com/s?id=1609397751514195661&wfr=spider&for=pc

愛奇藝流量反作弊的“術”與“道”

 

本文根據愛奇藝張曉明老師在DataFun Talk大數據風控系列活動中分享的《愛奇藝流量反作弊的“術”與“道”》編輯整理而成,在未改變原意的基礎上稍作整理。

今天主要從以下幾個方面介紹,首先介紹下流量反作弊相關的介紹,然後是愛奇藝流量反作弊的“道”,愛奇藝流量反作弊涉及到的點很多,起“道”還是蠻貼切的,讓大家對愛奇藝流量反作弊有個認知;接下來就是流量反作弊是怎麼做的。第四個從系統應用的角度講如何構建反作弊體系,最後就是未來的展望。

首先說一下什麼是流量反作弊,書面並沒有官方定義,我定義爲製造非用戶產生,或帶有一定目的性的數據。非用戶產生的就是程序員寫的一些代碼重複執行投遞邏輯或產生一些並非人爲產生的數據,帶有一定目的性指有些數據並不是機器產生的,很大部分都是人產生的。如一個人在APP上重複的操作一個事情,但所有的操作都是合法的(不斷打開關閉視頻刷視頻),這也是一種反作弊。第二點說一下流量作弊的形式,一種是機器作弊:模仿投遞日誌,調用接口。有些數據並不是投遞的,而是訪問業務數據庫,提供接口訪問,這種也算爲流量作弊;第二種是人工作弊:微信羣,QQ羣,由專人指導,專業APP,指導操作並與用戶分成。這兩種作弊的模式機器作弊的設定模式相對固定,短期效果明顯,因爲是機器循環操作,通過動態ip,而且速度比較快。人工欺詐模式不固定,效果與組織規模有關。

反作弊產業現狀第一個就是難辨識,機器作弊越來越趨近現實,很具欺騙性。在平臺和作弊方進行博弈的過程中就如同病毒一樣不停成長,就很難防範。第二是成本低,動態代理IP獲取容易,還有P2P機制的刷量軟件(流量精靈),雖然我們平臺能識別,但是如果是個小公司,一開始還是很難識別的。第三個就是行動快,非常的有組織有規模,不是某一個人某一臺電腦下一個軟件刷一下。

簡單介紹一下其刷量模式,中間紅色部分是流量欺詐平臺,首先是製片方或渠道去流量欺詐平臺購買流量,欺詐平臺在網站視頻刷流量,網站定期向渠道方支付流量分成。右邊是網店向流量欺詐平臺購買流量,平臺刷網店商品,提高人氣,這是兩種比較直接的形式。還有就是直播刷人氣,與網店模式差不多,還有就是網站刷廣告等其他形式。網站刷廣告形式是做了一個網站,讓廣告聯盟向網站投廣告,站長向欺詐平臺買流量,帶動廣告量,廣告聯盟就會支付費用。

給行業帶來的傷害直接就是經濟損失,第二個就是正常用戶對產品的判定標準失衡,如電商你都不知道產品是人評價還是機器評價。然後就是企業信譽受損,如票房十億但是電影很爛,長此以往信譽就會受損。企業數據分析不準確,做商業分析時各種指標對不上。企業成本上升,如愛奇藝本來十臺機器就能維護正常運維,但是一旦遇到刷量情況就無法承受,大量數據導致服務卡頓,因此服務器採購成本高。

數據是一個企業的核心資產,是一種生產物料,並且表達了一系列的行爲。數據可以衍生出各式各樣的產品,能夠幫助用戶提升用戶體驗,如可以基於數據做一些推薦產品。數據還能幫企業做一些決策、預測。如果數據質量不過關就會導致分析不準確。

從工程技術來看,流量反作弊是一個技術問題,機器生成的數據,算異常流量。從業務方面,只要分析師認爲數據表象特徵不具備規律性,算異常流量。總的來說兩者結合都算異常流量。但是有一個特點,從工程師的角度,這個事一旦做完就完了,如數據加密過程,你在廣告、評論都能應用。

接下來講一下流量反作弊與數據清洗之間的關係。數據清洗更加關注的是字段是否存在,枚舉值是否正確,該版本的投遞是否註冊並審覈通過。我們數據平臺對數據投遞是有一套規範,必須在投遞平臺註冊並審覈通過,纔會認爲投遞是真實合法的。流量反作弊更關注數據的特徵是: 指標是否正常,硬件信息是否正確,業務之間特徵數據關聯是否合理,是否滿足預測模型。

接下來說一下流量反作弊的位置,底下是各種數據源,然後將數據傳到ODS上,ODS直接對接反作弊的各種技術。反作弊做的越前越好,損傷越少,因爲拿到的數據是一致的。這裏有兩種輸出方式,一種就是以黑名單方式或者幾種黑名單的方式;另一種就是直接給業務方表格。我們主要採用第二種方式,加入我們以黑名單形式,A用戶用來A黑名單,B用戶用來B黑名單,而A和B不一致。但是反作弊最好是能拿到所有數據,因此我們給出所有數據。我們以現有數據做反作弊,但是有些機密數據是拿不到的,機密數據是以黑名單的形式給用戶。

流量反作弊的難點有:被動防守,事後分析,而且不斷迭代發生。業務場景複雜,沒有通用模型。第三個就是持續維護舊規則,不斷增加新規則。因爲作弊和反作弊是一個攻防過程,需要依據作弊技術不斷更新規則。

做流量反作弊需要提前做一些準備工作。第一個就是掌握投遞的日誌或者數據庫中的元數據含義,這個不可或缺,是所有工作的前提。第二個掌握主體業務的工作模式和場景,如視頻相關,需要了解播放器相關的場景和工作模式,信息流是怎樣的。第三個是避免信息孤島,必須找到所有相關聯的信息。第四個是瞭解作弊的目的什麼,從目的入手比較好操作。第五個是與業務部門良好的溝通,確認作弊的口徑,並做好保密工作。需要溝通確定作弊口徑,如視頻需要給業務方解釋不以視頻觀看爲目的的流量都算是作弊流量。

認定爲技術問題也是可以做的,一旦做完都可以用。具體方式有:做一些IP信譽機制,如果IP機制做好了,所有流量通過這個IP都是作弊流量。第二個安全畫像,利用打分機制。第三個就是加密信息檢測,運行起來所以機制都是一樣的。然後是設備硬件信息檢測,這是目前比較重要的機制,不管你是手機端的網頁或是APP網頁都能識別設備唯一ID。

認定爲業務問題的解決辦法分爲兩個方面,一個基於規則統計,一種是基於機器學習。機器學習優點可以實現十分複雜的邏輯,但是需要關注模型的選擇和效果,缺點解釋性比較差。統計有一個很好地解釋性,但是缺點要求統計模型的複雜程度限制在一定範圍內。能找一些特徵,但是選擇特徵有限。

認定爲業務問題的解決思路先建立一個指標庫,指標庫要足夠強大,第二個就是業務數據的上下文分析,業務發生時日誌文件記錄上面發生了什麼還有下面要發生什麼。第三個是行爲特徵的分析,如用戶先訪問A再訪問B,再訪問C,但是它直接從A到C就不正常了。第四個是基於時間序列的分析,數據訪問要符合一定的時間序列規則,如A-B-C不能C-B-A。

基於機器學習的反作弊思路是將數據從源日誌中取出,進行數據清洗和抽樣。然後做正反樣例標定以及特徵工程,然後將其放入標籤庫。分爲測試集和訓練集,然後進行模型訓練,利用測試集進行模型評價,通過後構建特徵庫,進入反作弊服務體系。

機器學習最重要的就是特徵工程,特徵工程決定數據的天花板。如果特徵工程好,模型一般也可以很好,但是如果特徵工程不好模型再好一定不能做好。上圖介紹了特徵工程如何做、使用方案、專業評估,然後如何獲取特徵,這些特徵如何稱呼,還有特徵預處理、分級以及做一些降維。然後就是模型訓練,主要使用LR、RF、GBDT、XGBoost。

效果評估就是敏感數據更關注TP,因此精確率必須要好,否則就無法使用。還有一般數據,如F1,ROC,AUC。這些指標低點並不影響後續分析。業務不斷維護舊規則創建新規則,對舊規則而言對作弊數據打標籤,創建特徵標籤驗證,基於作弊數據和標籤進行分析,最後進行驗證。比如今天做了一些反作弊,有兩條規則都對數據進行驗證,交集越來越大,最後一個包圍另一個,那麼被包圍的規則就沒有用了。

還有重要的一點是監控,如果被業務方反應已經很被動,需要在業務方發現之前解決。需要做一個監控提醒,首先定義定義監控指標(pv,uv,評論數等),業務主體基礎數據的監控,端整體數據的監控。然後分主題監控,如細粒度的分主題相關數據的監控,還有一點是監控的時效性,需要實時監控,準實時監控。

從系統應用的角度看反作弊體系,反作弊離不開徵信,首先確定徵信對象,對於我們就是渠道徵信。還有發展階段,短期做什麼,中期做什麼,長期做什麼。其價值就是做一些決策、信用監測以及成本節制。體系結構構件作弊與反作弊特徵庫,建立一些徵信模型,建立信用評價體系然後做一些預測。

流量反作弊的服務應用第一個就是數據報表,具體有:內容流量&反作弊總體分析,單個內容流量&作弊情況查詢,攻防效果分析,徵信總體分析,單個徵信對象信用報告查詢智能分析。第二個智能分析,就是負責作弊識別-扣量-減付業務流程自動化, 作弊概率預測,異常預警,策略分析。第三個就是接口服務,反作弊結果以接口形式服務於各個業務。

未來展望在技術方面引入深度學習方法,蠶蛹模型融合技術,產品方面加快信用體系建設,形成產業聯盟。

作者介紹

2014年加入愛奇藝,主要從事愛奇藝大數據平臺搭建以及流量反作弊項目,見證了愛奇藝在流量反作弊、規範市場環境方面的發展歷史,帶領團隊完成了流量反作弊的系統體系建設。

——END——

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章