大規模圖搜索和實時計算在阿里反作弊系統中的應用

經過多年在全球最大的電商平臺大數據上的沉澱和積累，阿里電商反作弊形成了一套監控預警、識別分析和處罰管控的多維度監管機制，特別是對虛假交易的數據監控和算法識別上應用了覆蓋全鏈路大數據的實時分析處理能力以及大規模圖搜索技術來鑑別作弊行爲。

作者：涵空

針對電商平臺上的作弊行爲，阿里巴巴一直秉承着零容忍的態度，在虛假交易的識別防控以及處罰力度上沒有最強只有更強。經過多年在全球最大的電商平臺大數據上的沉澱和積累，阿里電商反作弊形成了一套監控預警、識別分析和處罰管控的多維度監管機制，特別是對虛假交易的數據監控和算法識別上應用了覆蓋全鏈路大數據的實時分析處理能力以及大規模圖搜索技術來鑑別作弊行爲。

一、淘寶反作弊體系結構

淘寶反作弊體系結構可以從數據、算法、和系統三個維度來解釋

數據：主要是將識別的作弊數據彙總到買家、寶貝、訂單和賣家四個維度並全量提供給了數據平臺供各業務方使用，即可用作算法訓練樣本的特徵，也方便系統查詢和監控作弊數據的趨勢變化情況;

算法：覆蓋了包括賬號網、交易網、資金網和物流網四網合一的大數據，徹底打通了售前、售中、售後全鏈路業務，可以多方位識別各種作弊行爲;

系統：主要是建立在數據層基礎之上的一套包含監控預警、在線分析和風險運營系統，能快速高效地窺視刷單行蹤並及時阻斷其獲利點;

此外，淘寶反作弊系統還引入了評估體系，是評價淘寶反作弊的效果和價值的一套完整方法，主要包括人工和算法結合的評測，召回率和準確率用來評估算法模型本身的覆蓋面和精準度，落地率、純淨率和反彈率來評估業務效果和價值。

二、淘寶反作弊算法

淘寶反作弊算法體系是伴隨着淘寶平臺而不斷優化和完善的，早期作弊的形式非常簡單，比如頻繁修改商品上下架時間來獲取有利的商品排名，這種作弊手段往往經過簡單的分析處理就可以制定相關的規則來處理，隨着平臺業務場景的多元化，作弊手段也隨着變化多樣，但大部分還是集中在商品基礎信息層面上的作弊，比如類目錯放、標題詞濫用、誇大宣傳、低價炒信、廣告商品、重複鋪貨、刷流量和查詢詞等等，或者機器刷單模式，比如批量註冊一批機器賬號然後快速刷單來獲取高銷量。這些刷單手法也主要是針對平臺業務不斷的壯大和發展見縫插針式的達到獲取更多免費流量的作弊方法。隨着淘寶業務的不斷更新和反作弊算法的不斷優化，這種作弊形式也非常容易被識破和處罰。

道高一尺魔高一丈，無論刷單手法多麼詭計多端，淘寶反作弊算法體系都能快速響應。其中最重要的就是實現了一套覆蓋全鏈路(售前、售中、售後)大數據(賬號網、交易網、資金網、物流網)的實時分析處理能力，因此任何一條隱蔽性強的“精刷”作弊路徑都可以被海量大數據從多個點來進行算法建模和交叉分析，從而能快速地識別並控制住風險。淘寶反作弊算法框架大致見下圖1。

圖1、淘寶反作弊算法框架。

首先整個反作弊算法框架融合了“賬號網、交易網、資金網、物流網”四網大數據，並覆蓋了電商“購物前-購物中-購物後”多個業務環節，算法模型是一種流式計算框架，數據日誌經過實時和離線兩大計算模塊後會加工成一些交易屬性特徵作爲識別算法的基礎，其中實時計算主要是對一些異常的在線數據(比如商品銷量異常或者賣家信譽增長異常)進行快速分析並轉化爲相應的特徵，而離線計算是對全鏈路數據的特徵加工和處理，結合在線和離線的計算可以將行爲變化的長期和短期因素的影響在模型計算中綜合考慮，從而進一步提高識別的時效性和精度。

淘寶反作弊算法框架主要覆蓋了阿里電商兩大場景：日常反作弊和大促反作弊。算法主要是以大規模圖挖掘(Graph Mining)和在線學習(online learning)爲核心，在線學習可以對一些規則性的算法做到實時更新模型用來防範“試探性”地作弊手段，主要是基於規則的的模型(決策樹和LR邏輯迴歸模型)，根據一些交易特徵建立強規則來進行識別計算，對那種明顯的商品作弊模式的識別非常高效;而大規模圖挖掘則是通過跳出行爲“局部性”的方法考慮行爲的“全局性”來深挖“精刷”類型的作弊手段。比如概率圖模型對用戶行爲路徑進行時間序列建模(假設正常用戶的行爲軌跡的時間序列是服從某種概率分佈，異常的行爲軌跡在某些點上服從其他概率分佈)，對那種機器刷單或者固定模式刷單能非常有效地識別;圖標籤傳播模型可以來做團伙刷單的識別，對炒信平臺隱蔽性高組織性強的“精刷”模式的識別非常高效準確。爲了進一步驗證算法模型的精準性，反作弊體系也增加了實時干預模塊來做交叉驗證和分析，主要包括專家知識、人工舉報、異常監控和人工評測，這些外部數據源加工處理後可以作爲驗證數據動態幫助模型進一步優化。

大規模圖搜索技術在反作弊中的應用主要體現在下面四類核心算法：

1. 標籤圖模型：在大規模屬性圖結構上做社區和團伙挖掘;和以往的分類等機器學習算法不同的是，在屬性圖上有效地利用標籤傳播算法分析用戶的行爲可以挖掘出很多其他算法識別不到的同機團伙和協同炒作團伙;

2.概率圖模型：在大規模圖結構上挖掘變量之間的關係;利用概率圖模型可以有效分析用戶信息的風險程度(比如預防用戶地址泄密)和用戶購物行爲鏈路之間的關聯(比如識別賬號異常行爲)

3.數據流圖模型：在大規模數據流上挖掘頻繁子圖，利用數據流挖掘我們在資金流網絡中首次發現了由“殭屍賬號”通過炒信行爲產生的“坍縮網絡”，同時構建了一套“轉賬首活網絡”能有效識別這些炒信用戶，準確率達到了99.9%;

4.大規模圖鏈接模型：在大規模圖數據基礎上做排序和權重挖掘，通過這種圖鏈接方法我們有效地發現了重複運單和虛假運單的行爲;我們的圖算法能並行處理1億以上節點5億條邊的圖數據。在 3千萬個節點，2.2億條邊的圖數據上調用圖鏈接算法時間僅需要14分鐘。同時整個算法框架也包含了實時計算模塊，使得對時效性要求高的業務場景下(比如雙11)部分算法識別可以實現0秒延遲並可以每15分鐘動態調整並跟新所有其他的模型。

三、大數據全鏈路反作弊示例

淘寶反作弊最核心的部分就是搭建了一個將“賬號網、交易網、資金網、物流網”四網合一的全鏈路大數據的天羅地網，做到全方位無死角的監控和識別任一種作弊行爲。

*賬號網：主要是從各種註冊信息或登陸信息中來全方位真實瞭解賬號的真實性和平臺特性，通過挖掘用戶行爲的變化情況來有效發現賬號行爲的異常性(見圖3);

圖2、大數據全鏈路反作弊識別-賬號網

*交易網：主要通過挖掘用戶具體的購買行爲路徑來跟蹤是否有異常，這涉及到“售前”(搜索詞，點擊瀏覽，詳情頁等)-“售中”(收藏夾，購物車，支付等)-“售後”(物流，評論，退貨等)(見圖3);

圖3、大數據全鏈路反作弊識別-交易網

*資金網：主要是通過挖掘資金流的行爲來識別一些異常交易或者洗錢，盜號，套現等高危行爲(見圖4);

圖4、大數據全鏈路反作弊識別-資金網

*物流網：主要是通過挖掘交易和物流環節的關聯性來識別一些虛假運單和空包等作弊行爲(見圖5).

圖5、大數據全鏈路反作弊識別-物流網

四、總結

淘寶反作弊體系已經建立並完善了一套完整的包括“賬號網”、“交易網”、“資金網”、“物流網”的大數據分析體系，和覆蓋“售前”、“售中”和“售後”的電商全鏈路的在線學習(Online Learning)和大規模圖挖掘(Graph Mining)算法識別系統。同時還建立了完整的“平臺化”風險管控系統-“蟲洞”，通過系統監控預警以及在線分析的方式將模型算法和人工運營有效結合起來，不僅能高效識別作弊行爲並進行了有效地干預，同時還可以有效控制各種風險。經過日常和大促的洗禮，淘寶反作弊算法體系無論在準確率、覆蓋率、反彈率上都能經受任何形式的考驗。

大規模圖搜索和實時計算在阿里反作弊系統中的應用

NLP各種詞庫

敏感詞屏蔽

大規模圖搜索和實時計算在阿里反作弊系統中的應用

基於 Google 搜索的半自動推薦

awk 手冊

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結