【科技金融】互聯網反欺詐體系漫談

轉：原文鏈接：https://mp.weixin.qq.com/s/9TUNBIbf85MVZ6QlyN34lw
感覺類似金融風控實驗室的概念，會越來越火，也希望越來越多志同道合的小夥伴可以加入這個圈子，推動中國金融科技事業的發展。畢竟，在國外，綜合數據分析、人工智能等相關技術已經有超過20年的積累了，而在中國，纔剛剛起步。

這篇文章對於反欺詐的介紹屬於大綱式，講得還是比較全面，有條有理。其中建設反欺詐體系的實時性、自動化、數據化等原則；反欺詐團隊的架構；信譽庫、專家規則、機器學習等方法。對於初期着手反欺詐項目的夥伴，都有建設性、方向性的指導意義。

欺詐與反欺詐

要反欺詐，自然要明確什麼是欺詐。

欺詐一詞，古已有之。在《現代漢語詞典》和《漢語大詞典》中，欺詐被解釋爲“用狡猾奸詐的手段騙人”。在《中華人民共和國民法通則中》和相關司法解釋中，欺詐行爲是“故意告知對方虛假情況，或者故意隱瞞真實情況，誘使對方做出錯誤的表示的行爲”。

故此欺詐的核心要義，是“騙”，是通過欺騙以達到通過正常途徑無法達成的目的。欺詐一事，在人類社會中無處不在。小到孩童撒謊、大到軍事謀略，本質上都是欺詐。

正因爲欺詐的無處不在，所以在古往今來的各行各業中，從商品上的防僞碼到收銀臺的驗鈔機，從登陸頁面的賬號密碼到當下熱門的人臉識別，反欺詐也以不同的面貌存在於人們身邊。

01
互聯網欺詐

互聯網是一把雙刃劍。進入互聯網時代以來，技術的飛速發展不斷的提升效率降低成本。遺憾的是，在提升服務的同時，互聯網也大幅的降低了欺詐成本，提高了欺詐的效率。更加不幸的是，由於互聯網服務的高度自動化，很多在過去需要有人工介入的環節都由系統自動化進行操作。缺少的人的主觀判斷，使得欺詐更加容易發生。

看似公開透明的網絡空間本質上如同一個羣狼環伺的暗黑深林，一旦互聯網平臺出現了反欺詐漏洞或者出現了一種新的欺詐形式，各種黑產團伙便會羣攻而上。在互聯網的加持之下，這種攻擊造成的損失規模巨大，輕則導致互聯網平臺傷筋動骨,重則直接倒閉。而由於法律法規和監管的滯後性，互聯網欺詐受到的威懾和懲戒又往往不足，導致當前互聯網領域的反欺詐壓力不斷增大。

常見的互聯網欺詐形態：

盜刷：通過互聯網交易平臺，將他人銀行賬戶中的資金進行轉移；

薅羊毛：利用互聯網平臺業務邏輯、技術上的漏洞，冒充正常用戶套取返現、積分、獎勵等；

騙貸：利用虛假資料騙取原本無法取得的互聯網平臺授信額度；

刷單：通過與賣方勾結，通過人工或利用技術手段，製造虛假交易量或訪問量；

刷好評：通過人工或技術手段，在互聯網平臺上進行留言，製造虛假的好評率；
……

隨着互聯網的發展，網絡購物、網絡遊戲、網絡出行、網絡視頻、外賣、互聯網教育、互聯網金融等各種互聯網平臺如雨後春筍，越來越多曾經只能在線下享受的服務成爲“互聯網+“。得益於互聯網服務的發展，互聯網欺詐也得到了充足的資源和動力實現快速的發展，欺詐手法多種多樣且靈活多變，隨着互聯網業務的變化和發展不斷的演進，並且迅速的開始規模化、產業化和專業化。

02
互聯網反欺詐

互聯網業務特點，對互聯網反欺詐體系提出了更高的要求。互聯網反欺詐體系存在着幾個原則：

實時性： 考慮到用戶體驗，互聯網反欺詐體系必須能夠在非常短的時間內對欺詐行爲進行認定，並給出判斷。對於註冊、登陸、支付等一些場景，必須能夠在用戶無感知到情況下對欺詐行爲進行檢測和認定。

自動化： 由於（準）實時性的要求較高，決定了互聯網業務無法通過人工操作進行反欺詐，必須使用更加高效的自動化反欺詐錯事。

數據化： 與傳統的線下反欺詐不同，自動化的反欺詐檢測本質上是數據應用能力的比拼。數據採集能力、挖掘能力和分析能力、建模能力，決定了互聯網反欺詐能力的高低。

這些原則決定了互聯網反欺詐體系對人員、方法、技術、數據等方面均存在特有的需求和特點：

2.1 人

傳統的線下反欺詐往往是單兵作戰，但建設互聯網反欺詐體系需要一個完整的團隊，各個崗位分工配合共同完成。一個完備的反欺詐策略體系需要以下幾類崗位人員。

策略人員： 互聯網反欺詐體系需要有大量熟悉互聯網欺詐手段和防範方法的反欺詐策略人員。反欺詐策略人員應當實時關注互聯網欺詐的動態，及時發現新出現的互聯網欺詐手段和手法，並有效的調度和利用既有的資源制定反欺詐的策略，進行防範。

運營人員： 由於互聯網欺詐行爲的多樣性和靈活性，欺詐手段會不斷的出現變化和創新。反欺詐運營人員應當建立起各類反欺詐運營監控指標體系，通過監控指標的變化，不間斷的分析指標變化原因，及時發現穿透反欺詐策略體系的欺詐行爲並予以應急響應。此外，運營人員還應該與業務部門、產品部門、營銷部門保持高度密切的溝通，做欺詐風險和用戶體驗的平衡。

調查人員： 反欺詐調查人員應當人工對各種已經發生或正在發生的互聯網業務請求進行人工的調查、覈實。對於在人工調查中發現的漏報欺詐行爲，應當及時的止損、追損，如取消訂單（互聯網電商）、攔截髮貨（互聯網電商）、貸後提前介入（互聯網金融）等。

數據挖掘人員： 數據挖掘人員主要負責將系統採集的各種形式的數據進行解析和挖掘，輸出各種特徵，使其能夠被應用於反欺詐建模和反欺詐策略工作。該崗位的工作可與公司數據分析、用戶畫像等部門共享。

數據建模人員： 數據建模人員負責利用系統採集到的客戶數據和數據挖掘輸出的特徵，建立欺詐模型，對客戶的欺詐概率進行判斷。該崗位的工作可與企業內部其他數據建模工作共享。

研發人員： 負責各類反欺詐系統的開發和維護、反欺詐策略和模型的實現。

相較於線下反欺詐，互聯網反欺詐對於人員的需求的最大特點，在於對於研發人員和數據挖掘、數據建模人員的巨大需求。

2.2 方法

反欺詐的方法多種多樣，當前互聯網反欺詐體系中常用的方法有信譽庫、專家規則、機器學習等幾種：

信譽庫：

信譽庫即傳統的黑、白名單，通過內部積累、外部獲取的各種人員、手機號、設備、IP等黑、白名單對欺詐行爲進行判斷，是一種實施簡單、成本較低的反欺詐手段。與此同時，信譽庫也存在着準確度低、覆蓋面窄的缺陷和不足，僅可作爲互聯網反欺詐的第一道過濾網使用。

專家規則：

專家規則是目前較爲成熟的反欺詐方法和手段，主要是基於反欺詐策略人員的經驗和教訓，制定反欺詐規則。當用戶的操作請求和操作行爲觸發了反欺詐規則時，即被認定爲欺詐行爲並啓動攔截，常見的如各種聚集度規則等。

專家規則的優勢在於實現較爲簡單、可結實性強，但缺陷在於專家規則存在有嚴重的滯後性，對於新出現的欺詐手段和方法無法及時的進行應對，往往需要着付出大量損失後才能總結教訓提取新的規則。此外，由於人腦的限制，專家規則只能使用一個或幾個維度的標量進行計算和識別，往往存在有較大的誤報率。

專家規則嚴重依賴於策略人員的經驗和教訓，不同水平的策略人員制定的專家規則效果也會純在較大區別，主要可以作爲互聯網反欺詐的應急響應手段和兜底防線。

機器學習：

機器學習反欺詐是近年來比較火的一種反欺詐方法，目前也取得了一定的成果，最爲常見的如芝麻信用分等。

機器學習反欺詐是通過機器學習方法，將用戶各個維度的數據和特徵，與欺詐建立起關聯關係，並給出欺詐的概率。

常見的機器學習反欺詐包括有監督和無監督兩種：

基於有監督機器學習的反欺詐：

有監督機器學習反欺詐是目前機器學習反欺詐中較爲成熟的一種方法。其基本思路是通過對歷史上出現的欺詐行爲進行標記，利用邏輯迴歸等機器學習算法，在海量的用戶行爲特徵、標籤中進行分類，發現欺詐行爲所共有的用戶行爲特徵，並通過分值、概率等方式予以輸出。

由於互聯網欺詐行爲的多樣性，很難百分百的將欺詐行爲與正常行爲完全進行區分，因此有監督機器學習反欺詐等最大難點在於如何準確獲取大量欺詐行爲的標記。

基於無監督機器學習的反欺詐：

無監督機器學習反欺詐是近來行業內出現的一種新興思路，也成爲一些公司的賣點，但迄今爲止尚未出現較爲成熟和經過實踐驗證的解決方案。

相對於有監督機器學習的反欺詐，無監督機器學習的反欺詐方法不需要預先標記欺詐行爲，而是通過對所有用戶和所有操作行爲各緯度數據和標籤的聚類，找出與大多數用戶和行爲差異較大的用戶和操作請求，並予以攔截。

理論上，基於無監督機器學習的反欺詐方法可以使得反欺詐人員擺脫被動防守的局面。但是由於無監督機器學習算法對於數據的廣度、數據使用的深度都有着極其高的要求，因此無監督機器學習算法的效果仍需等待實踐的檢驗。

如果把互聯網反欺詐看作是一頓大餐的烹飪，那麼互聯網反欺詐的方法就如同一本菜譜。就像天下烹飪無非煎炒烹炸蒸煮燉，反欺詐的方法也是萬變不離其宗。

但是，在不同的反欺詐團隊手裏，同樣的反欺詐方法卻可以發揮出截然不同的效果。對於反欺詐方法運用的好，可以在準確攔截欺詐者避免欺詐損失的同時，讓正常用戶完全無感址。反之，若對欺詐方法等使用不當，則可能使得正常用戶被折磨的苦不堪言，欺詐者卻依然如入無人之境。因此，結合企業反欺詐需求和場景，組合各類反欺詐方法和手段，實現企業綜合利益最大化應當是每一個反欺詐團隊永遠的追求。

2.3 技術

互聯網反欺詐常用的技術主要包括數據採集、特徵工程、決策引擎、數據分析等幾個類別：

數據採集技術：

數據採集技術主要是應用於從客戶端或網絡獲取客戶相關數據的技術方法。值得強調的是，數據採集技術的使用，應當嚴格遵循法律法規和監管要求，在獲取用戶授權的情況下對用戶數據進行採集。

設備指紋：

設備指紋是目前在互聯網領域被廣泛使用的一種技術手段，其在反欺詐體系中的作用也從最早的設備唯一標示，變爲了客戶端數據採集器。

設備指紋服務目前市場上有大量的服務提供商，評價一個設備指紋服務的優劣應當綜合考慮覆蓋度、唯一性、全面性等幾個方面。

網絡爬蟲：

網絡爬蟲技術即可以用於用戶運營商數據、信用卡數據、網絡交易數據等各類數據等的爬取，也可以應用於司法老賴名單、網絡覈查數據的爬取。

特徵工程技術：

特徵工程技術是指可以從原始數據中進行數據挖掘的各類技術。常見的特徵工程技術如生物識別、活體檢測、文本語義分析、知識圖譜等。

生物識別：

生物識別，如聲音識別、人臉識別等，是指對用戶特定生物特徵進行檢測和識別一種技術手段，通過比對用戶的生物特徵信息，判斷用戶身份，主要用於用戶身份的核實等場景，防止出現用戶帳戶被盜用的情況。

活體檢測：

活體檢測技術主要通過要求用戶做特定動作或朗讀特定內容，對用戶是活人還是機器進行判斷和檢測，是防範欺詐團伙批量攻擊的一種有效手段。

文本語義分析：

文本語義分析主要用於對文本類數據的解析和挖掘，從用戶評論等文本內容中提取用戶特徵。

知識圖譜：

知識圖譜是利用圖數據庫，從特定維度對不同用戶和不同操作行爲之間進行關聯和計算，從而發現不同用戶和不同操作之間的關聯關係，可以用於團伙特徵檢測等場景。

數據分析技術：

隨着互聯網反欺詐方法等不斷演進，數據分析技術也成爲反欺詐能力構建的一個核心能力。海量數據和特徵的處理也對數據分析技術提出了更高的要求。常見的數據分析技術包括實時分析（如Storm）和離線分析（如Hadoop）兩類，具體介紹可以參見大數據相關技術。

決策引擎：

反欺詐決策引擎是互聯網反欺詐體系的大腦和核心。一個功能強大的決策引擎，可以將信譽庫、專家規則和反欺詐模型等各類反欺詐方法有效的整合，併爲反欺詐人員提供一個操作高效、功能豐富的人機交互界面，大幅降低反欺詐運營成本和響應速度。

對於決策引擎好壞的判斷，應當從引擎處理能力、響應速度、UI界面等多個維度進行綜合判斷。

反欺詐技術能力猶如鍋碗瓢盆竈，反欺詐技術能力的高低，決定了互聯網反欺詐能力的高度。與線下反欺詐不同，互聯網反欺詐是攻守雙方在技術上的對抗。特別是在欺詐團伙已經開始產業化，並且廣泛使用大數據、人工智能等前沿技術的時候，反欺詐技術能力直接影響着互聯網反欺詐效果的好壞。

2.4 數據

數據是互聯網反欺詐能力的基礎。互聯網反欺詐體系的建設，對於數據的廣度和深度都提出了非常高的要求。業內目前常用的數據從類別上可以分爲以下幾類：

設備類：

設備類數據主要指用戶客戶端（如手機、平板電腦、筆記本、PC等）等各類參數，主要通過頁面、APP內嵌入各類sdk，js腳本等方式進行採集和獲取。

環境類：

環境類數據是指用戶發起操作請求時所處環境的相關數據，可以分爲虛擬環境和物理環境兩大類。

虛擬環境數據，主要指用戶所的IP、WiFi等網絡環境相關數據。

物理環境數據，主要指用戶的手機定位、基站位置等相關數據。

行爲類：

行爲類數據是指用戶在網頁或APP上進行各種操作時的各類數據，如用戶頁面停留時長、文本輸入時長、鍵盤敲擊頻次等。

第三方數據：

第三方數據指通過從公開途徑或第三方數據服務商處獲取的各類數據，包括但不限於用戶的運營商數據、電商消費數據、銀行數據、司法數據等各類數據。

由於監管要求，此類數據往往是已經進行脫敏處理的標籤數據。考慮到這類數據會產生一定的數據成本，同時其真實性和準確性也參差不齊，所以在使用這類數據時，應當十分謹慎。

反欺詐數據的分類和使用仁者見仁智者見智，但正所謂巧婦難爲無米之炊，數據的完備性決定了反欺詐體系的天花板，直接限制了反欺詐體系效果可以達到最高水平。 E

後記：

反欺詐是一個跨安全、風控、數據、研發、內控等多學科的一個新興領域。正如本文開頭所述，反欺詐作爲一個職能，在互聯網、金融、傳統零售等各行各業廣泛的存在，但卻沒有一套完整的理論框架和方法論。筆者在業內各種交流平臺，結識過許多“反欺詐”同行，但詳細交流下來，無論從所承擔的職責，還是從所使用的方法都相去甚遠。

本文結合近年來互聯網領域內的反欺詐現狀，針對互聯網反欺詐體系建設過程中的經驗和教訓進行了簡單的總結和羅列。在互聯網欺詐團伙已經集團化、產業化並且形成產業鏈的今天，筆者強烈呼籲作爲防守一線的反欺詐從業者們能夠更多的協作、共享和交流，共御外敵！

【科技金融】互聯網反欺詐體系漫談

這個網絡爬蟲代碼，拿到數據之後如何存到csv文件中去？

即刻放大鏡。跟隨鼠標，屏幕任意位置放大

【面試準備】【SQL】數據庫有哪些約束？

.NET開源強大、易於使用的緩存框架 - FusionCache

面試，有時候是個運氣活

【科技金融】互聯網反欺詐體系建設

【科技金融】數字科技驅動的信貸風險技術

【科技金融】如何選擇合適的第三方數據源

【科技金融】互聯網反欺詐體系漫談

【科技金融】互金欺詐與反欺詐

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結