從0到1搭建360金融大數據風控系統:AI做了什麼?

對於互聯網金融行業並不算新鮮的大數據風控這件事兒,爲什麼360金融的做法可圈可點?AI在其中做了什麼?InfoQ記者近日對360金融大數據總監蘇綏進行採訪,一探究竟。蘇綏還將在AICon全球人工智能與機器學習技術大會上分享360金融的AI實踐之旅,感興趣的讀者可以瞭解詳情。

作爲從0到1搭建360金融大數據風控系統的負責人之一,蘇綏在360金融的履歷,首先讓我們感興趣的,就是他加入360金融的那一年——2017年,發生了什麼?是什麼原因促成360金融決定建設大數據風控?於是我們的採訪,就從那時開始倒序。

在蘇綏看來,2017年他加入的時候,360金融在傳統風控上其實做得不錯。“公司在上海已經搭建了一個完整的風險管理團隊,覆蓋反欺詐、貸前、貸中及貸後管理等環節。核心成員主要來自於招行、交行等國內頭部持牌金融機構,他們在傳統風控方法上有豐富的實操經驗。從結果上來看,做的也非常優秀——360借條從2016年9月上線伊始,其風險水平就處於行業領先水平。”

但是公司當時遇到這樣一個問題——隨着客羣的不斷下沉,批覈率一直上不去,低批覈率直接導致公司只能服務優質客羣,從而將更多徵信白戶拒之門外;另外低批覈率導致獲客成本增高,影響公司業務的規模增長。

當時大數據及雲計算在搜索推薦、廣告變現方面取得顯著效果,不少互金公司也開始嘗試將大數據引入風險管理中並且取得了實質性效果提升。因此360金融決定成立數據智能部,探索AI、大數據、雲計算等技術在金融場景上的應用,而大數據風控是最重要的方向之一。

大數據風控的三個階段

到目前爲止,360金融大數據風控系統經過了三個階段的迭代:

從零到一搭建系統

第一階段是2017年年中到2018年年中,從零到一搭建系統。在蘇綏看來,“這個階段也是工作量最大的階段。”

首先也是最重要的,是要準備足夠的帶標籤樣本,對不少小機構來說,這個門檻很高——因爲真實壞樣本的獲取需要真金白銀的投入。有了樣本之後,剩下的大部分工作就是加工特徵。這其中有一些需要特別注意之處:

  • 不同三方數據源的覆蓋率差異較大,分佈可能有偏,且個別數據源穩定性不好;
  • 有不少時間相關變量,相關性很強,但容易隨時間偏移,影響模型的穩定性;
  • 異常取值很多,需要做處理;
  • 默認值的處理,比如未查、未查得、異常等取值的區分;
  • 此外,工程化也同樣重要。風控系統直接和錢打交道,審批結果直接影響放款,系統的異常處理就顯得格外重要。

完善功能

第二階段是2018年年中到2019年年中,是功能完善階段,在這個階段360金融做了三件事情。

首先,搭建特徵及自動建模平臺。在風控模型的迭代過程中,大部分時間都消耗在特徵相關的工作上了。爲了提升這部分工作效率,360金融搭建了一個建模和特徵分析平臺,將特徵的分析(比如查看特徵的取值分佈與逾期的相關性等)、新增特徵、特徵組合分析等工作簡化。此外,還提供很多配套工具,可以將模型的評估等工作自動化,提升建模人員的工作效率。

其次,複雜關係網絡的應用探索。這其中包括圖表徵(Graph Embedding)、社交網絡分析、基於聚類、社區分算等無監督算法的團伙識別等。

另外,A/B test機制。雖然第一階段已經支持多套策略,但實現方式不靈活,每次上線實驗需要不少代碼開發量,效率較低。因此這個階段360金融重新設計了系統實驗框架,日常大部分的測試實驗(包括上線新模型)都可以通過配置化方式完成,迭代週期大幅縮短。

“效率的提升非常重要,更好的效率意味着大家有新的想法可以儘快驗證,我們平均每週都有2-3個實驗上線,雖然有些實驗很簡單、影響面很小,但是這樣就可以讓系統快速的進化。與之形成鮮明對比的是,傳統風控中用的主模型更新週期較長,一般超過半年。”

系統進化

第三階段是2019年年中到現在,是系統的進化階段。蘇綏表示:“雖然目前我們剛進入這個階段,但是未來的優化方向有AutoFeature、端風控(隱私保護的機器學習)、增強學習/遷移學習等方法的應用探索等事情可以做。”

在這三個階段歷程中,蘇綏認爲有很多難忘的事情,比如系統第一筆放款,比如第一次故障,再比如第一次服務超過百萬用戶…但是最難忘的,可能就是國家相關監管機構2017年12月1日下發的《關於規範整頓“現金貸”業務的通知》了。

“隨着監管的塵埃落定,市場一片哀鴻。監管同時對徵信數據使用規範有了更明確嚴格的要求,不少徵信數據提供方的接口做了調整,導致我們的系統也需要做不少改造,這個對團隊有不小的打擊——當時我們第一版系統的風險表現數據剛回來,數據還不錯,正打算要放量,這個必須的系統改造工作,意味着我們要重訓模型——之前的測試結果徒勞了,重新驗證新模型效果又需要幾個月的時間。”在蘇綏看來,這次“出師不利”讓大家有點兒灰心。

好在團隊及時調整心態,用一個月時間完成了所有的改造工作,包括重訓模型、接口改造等諸多事宜。2018年1月初,新版系統重新上線測試。

大數據風控各環節深度使用AI

其實大數據風控對於互金來說,並非新鮮事。360金融在大數據風控系統建設上最大的特點是什麼呢?蘇綏表示:那就是在風控各環節深度使用AI等相關技術。

反欺詐能力

對於360金融來說,360集團在安全上的優勢可謂得天獨厚:集團有市場上最大的灰黑產名單庫;有市場上最全的釣魚、欺詐、賭博等名單庫;有市場上最強大的防盜號等安全技術。

此外,360金融還將無監督算法及複雜網絡算法應用到反欺詐識別上:

首先,利用譜聚類、社區發現等算法識別團伙欺詐。團伙欺詐是反欺詐繞不開的難題,往往在展業初期會對業務造成很大沖擊,這些組織有大量的灰黑產資源,熟知各家反欺詐防範慣用手段,常規的黑名單等策略很難湊效。

其次,構建一個大規模關係網絡,有超過20億的節點,百億的邊,可以用社交網絡分析方法提取很多有用特徵值,幫助平臺找到疑似欺詐案件。比如用戶A,他的一度、二度關係網絡中聚集了大量的欺詐者,且與這些人聯繫緊密,那麼用戶A的潛在風險很高。再比如用戶B,他的一度關係中有很多高淨值用戶,那麼用戶B高概率是個好用戶。

在蘇綏看來:”反欺詐是一個系統工程,需要多維度聯合防控,包括但不限於實時環境評估、異常行爲檢測、社交網絡分析、身份異常識別、還款意願評估等方面。如果有某個環節有明顯漏洞,很容易被打穿,要知道欺詐者大都是專業人士。“

語音機器人用於貸後催收

據蘇綏介紹,360金融是國內最早將語音機器人應用於貸後催收的公司之一。360金融的語音機器人從立項到產品上線僅用三個月,產品上線後節省了70%以上的人力,還直接帶來投訴率的降低。

100%語音質檢覆蓋

與搜索、電商、信息流等業務相比,金融是一個”人工坐席”密集型的業務,客服、電銷、催收等多個環節均需要與用戶(語音)溝通,如何保證服務質量?傳統的做法是招聘一個質檢團隊,人工抽樣部分錄音檢查是否有問題,其弊端顯而易見——效率低;此外,無法保證暴露所有問題;另外,人工抽檢本身也可能存在質量問題。針對這個問題,360金融搭建起一套全自動化的語音質檢系統,不僅做到100%覆蓋,藉助於關聯規則等無監督算法,系統還可以自動發現很多人工無法檢出的問題。系統上線後,人工質檢員的能效提升了3倍,投訴率下降10%。

高自動化過件率

剛開始,不少進件申請因爲置信度不夠等原因轉入人工進行覈實,不僅成本高,且需要用戶等待較長時間,導致體驗不夠好。針對這個問題,360金融嘗試引入複雜模型用於風險評估,比如複雜關係網絡、無監督算法等,區分度有大幅提升。不僅提升了自動化過件率,而且還能撈回更多用戶(提高了批覈率)。

大數據風控應該遵循三大標準

在蘇綏看來,雖然行業裏有不少公司在對外宣講大數據風控,但實際上僅僅是把機器學習(最典型的就是GBDT、Xgboost等樹模型)應用到ABC卡的建模中,替代傳統評分卡。雖然這樣做也能帶來一些收益,但遠遠不夠,真正的大數據風控應該滿足以下標準:

大量特徵數據

”舉個例子來說,比如銀行等持牌機構,他們通常只能拿到交易流水和徵信報告等少量強金融屬性變量,這種情況下也許用評分卡就夠了,用大數據風控的方式收益不一定大,還會犧牲一定程度的可解釋性,不一定划算。但是互聯網公司就不一樣了,他們有大量的用戶行爲日誌,這些數據經過處理可以衍生出成千上萬、甚至幾十萬的特徵維度,這些特徵單獨拿出來都不強,但組合起來可能非常有效。此外這些數據很難造假,對欺詐防範有很大的益處。對於這種場景,用傳統風控那套做法就玩不轉了,只能用大數據風控。“

強大計算能力

因爲大數據風控要處理大量數據,且對時效性要求較高,因此勢必要求系統底層有強大的運算能力。對此蘇綏介紹:”2017年底在將用戶行爲日誌引入反欺詐識別時,我們基於kafaka+Storm搭建了一套實時數據流系統,可以做到數據秒級更新,這樣能最大程度降低數據延遲,可以識別一些短時、集中性的團伙欺詐。但搭建這樣的系統,前期需要較大的資源投入,門檻較高,很少有公司願意這麼做。“

穩定的三方資信數據

在一般互金公司展業過程中,或多或少會依賴於第三方資信數據。近年來,這個市場受政策監管影響比較大,不少數據源被叫停,直接影響模型的穩定性和可用性。相對傳統評分卡來說,大數據風控模型的迭代週期較長,需要經過樣本選取、特徵清洗、建模、效果評估、穩定性校驗、部署上線等諸多環節,一般情況需要1-2周時間。此外,由於模型可解釋性差,離線很難評估上線後的實際風險表現。

針對於此,蘇綏認爲360集團的海量數據及技術對於360金融來說是一種支持。”針對三方資信數據的穩定性問題,我們採用的方案是線上同時運行多套模型和策略,一方面相互作爲災備方案,在一套策略失效的情況,自動切換到其他策略,保證系統的穩定性;另一方面,我們也通過這種挑戰者機制,對比不同模型間的效果差異,從而不斷的提升系統效果。“

逾期率行業最低背後的原因分析

在此前公開場合,蘇綏曾經表示:在已經上市的金融科技公司中,360金融的逾期率是行業內最低的。這一成績的背後,大數據風控都貢獻了什麼?蘇綏認爲:如果用一句話概括大數據風控的貢獻,應該說是模型區分度更好,所以能給用戶更合理的額度和定價,這一點至關重要。

”對於同一個人,你給他1萬額度,他會正常還款,但如果你給他20萬額度,也許就會逾期了——— 我們每個人都會對自己的虛擬信用做一個實際價值量化。從指標上來說,大數據風控系統上線後,批覈率在原來的基礎上提升近50%,遠高於行業平均水平。

在這其中360金融的特色在於:

第一,正如前文所說,將AI技術應用到用戶生命週期的各個環節。

第二,構建用戶多維度AI畫像。360金融用機器學習技術構建用戶多維度風險畫像,內部稱之爲“AI因子庫”。

  • 用模型去量化用戶的"多頭惡化指數",即預估未來一段時間內用戶多頭的變化速率。“舉個例子,用戶A和B在申請的時候多頭均只有2次,但A在未來三個月內多頭激增到10次,而B較穩定只有3次,這反應出A在短時間內有大量的資金需求,即資金飢渴型,那麼用戶A在未來變壞的可能性是要遠大於用戶B的。有了這種量化指標,在申請的時候我們就可以針對這類型客羣做定製策略,比如給這部分人較低的額度。”

  • 用模型去量化用戶的長期價值貢獻(Lift-Time Value,簡稱LTV)。

  • 將生存分析概念引入到風險管理中,爲此360金融提出GBST算法概念(Gradient Boosting Survival Tree,基於梯度提升的生存樹,簡稱GBST),更好預估用戶分期借款以後各期的存活概率,從而做到更精準的損益分析及貸中預警。

第三,傳統風控與大數據風控的融合。蘇綏一直認爲傳統風控與大數據風控不是完全對立的,很難說孰優孰劣。“360金融成立了兩個風控團隊,一個偏傳統風控,一個偏大數據風控,大家各有側重,相互協作———傳統風控的定額、定價機制對大數據風控有很大參考價值;大數據風控可以對人羣做更精準的畫像。另一個優勢在於,二者相互提供‘拒絕推斷’的樣本,順帶解決了困擾信用評分領域多年的問題。所以二者融合的效果最佳,目前越來越多的機構在做這方面的嘗試。”

第四,產品、風控、運營的協調與統一。這是老生常談的話題,不僅需要幾個部門間的協同,也需要從公司組織架構上做頂層設計。

佈局未來風控系統三方面重點工作

在採訪過程中我們瞭解到,360金融是非常重視研發投入的。據瞭解,研發人員比重超過48%,風險管理團隊人員超過百名,蘇綏所在的數據智能部規模接近百人。

從風控角度來說,蘇綏團隊接下來的工作重點有以下幾點:

存量用戶的精細化管理。“我們有超過1.2億的註冊用戶,2000多萬借貸用戶,未來如何服務好這些客戶就成了重中之重。”目前主要思路有:提高用戶留存;用戶長期價值提升;不同風險客羣的差異化經營。

端風控(隱私保護的機器學習)。 隨着國家對隱私安全的監管力度加強,未來手機端上的很多數據不能採集。一個方案是端風控,即將風控模型私有化部署到用戶手機上,在滿足業務場景需求的同時,最大化保護用戶的隱私。這方面國內有些頭部公司已經在做嘗試,比如微衆銀行的聯邦學習,螞蟻金服的共享學習等。

完善系統架構、靈活適配多種流量渠道、靈活應對不同數據源的缺失。目前360金融的系統主要基於自有APP渠道進件來搭建,但未來流量渠道會發生變化,H5、小程序、API對接等形式在不斷增加,由於不同渠道可以採集的數據差異很大,這對於風險評估,尤其是反欺詐工作帶來很大挑戰。

嘉賓介紹:

蘇綏,現任360金融大數據總監,負責大數據風控系統及語音機器人等AI技術在金融全場景的應用落地。曾就職於阿里、百度,從事Query理解、搜索相關性、對話系統等方向的技術研發工作,在搜索、廣告、對話機器人領域有多年的實戰經驗。2017年初加入360金融,從0到1搭建360金融的大數據風控系統,日均放款過億。從零組建語音外呼機器人團隊,產品已經在營銷獲客、貸後催收等領域有廣泛應用。

福利時刻:

蘇綏老師將在11月21-22的AICon大會上帶來更多關於知識圖譜的精彩分享,想要跟江老師深入交流的,不要錯過面基的機會。另外,大會還有關於機器學習、NLP、搜索推薦、智能金融等50+最新落地案例,更有來自AWS、微軟、BAT、華爲等國內外一線AI技術專家帶來乾貨演講,部分議題搶先看:

【螞蟻金服】金融知識圖譜在螞蟻的業務探索與平臺實踐
【菜鳥網絡】人工智能在智慧交通物流的技術演進之路
【阿里媽媽】工業級深度學習在阿里廣告的實踐、創新與最新進展
【微軟小冰】人格化對話機器人的構建及在語音場景當中的實踐
【百度】AI大生產時代下的NLP技術創新與應用實踐

目前大會售票倒計時一週,購票頁面輸入優惠碼“aicon”還可享折扣價,搶票諮詢:18514549229(同微信)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章