【科技金融】數字科技驅動的信貸風險技術

轉:原文鏈接:https://mp.weixin.qq.com/s/Zltw6taqF5qH46bL6ikHAA

一、構建數據矩陣

我今天分享的主題是“數字科技驅動的信貸風險技術”。

作爲股東及主要數據源之一,京東金融的數據具備大、厚、動的特點,也就是數據量大、數據維度高、同時具備實時更新的能力。

基於自身多年在電商零售及不同金融場景下的積累,京東金融每天新增的數據量級達到800TB,比一些小型科技公司1年的數據增量還要多。

同時,京東金融已與700多家金融機構合作,共同服務線上線下商戶達800萬個,個人用戶數量超過4億。

可入參模型變量超過60萬維,已搭建併成功應用的風險策略超過5000個,風險模型超過500個。

活躍客戶65%以上爲80後主力消費人羣,也是消費及金融領域的核心客戶人羣。

除了京東金融及京東體系的數據之外,ZRobot也與中國銀聯、三大運營商等頭部數據合作方展開深度合作。

加上與騰訊、百度等聯手成立的京騰計劃、京度計劃等,目前可對超過6億的個人進行準確的風險評估。

有了強大的數據基礎,ZRobot可以將數據技術發揮到極致,目前在AI領域實現了一系列突破,包括全流程智能風險識別、生物識別、AI模型能力等。

二、數字科技驅動的發展趨勢

整個數字科技驅動的風控發展趨勢是從四個維度去看的:
在這裏插入圖片描述

第一個,從數據源的角度講,我們認爲將來的數據源會變得越來越開放,數據孤島會被進一步打通,逐步形成數據共享機制。

第二個,是從整個模型的搭建方式上面,我們會看到從監督式學習向無監督學習的迭代和發展。

第三個,對於風險的單點判斷,會向羣像特徵轉變。

第四個,中心化管理更多會向去中心化的應用靠攏。

1.打通數據源

首先從數據源的角度講,通過我們的數據挖掘技術,目前已經形成了刻畫完整用戶畫像的數據維度及屬性。

包括個人基本信息、生物特徵、家庭信息、職業信息、資產信息、教育信息、消費記錄等等。

有了這個屬性基礎,無論在風險管理方面,還是在精準營銷方面,都能對用戶做出比較全面和準確的判斷。

數據孤島的打通,通過什麼樣的方式可以有效做到呢?

第一個有效的方式,我們認爲可以通過聯合建模的方式做到。大家都比較熟悉的業內聯合建模一般遵循五大步驟進行。

在這裏插入圖片描述

從提交樣本到最終部署上線及模型校驗。在整個聯合建模的過程中,儘管能夠把數據資源打通,但是模型效果高度依賴於建模團隊本身的實力。

每家公司的建模團隊實力是參差不齊的,因此我們在建模流程中賦予了合作方的建模團隊一系列額外工具以及定製化的增值服務。

比如我們的數據清洗和特徵工程階段。

做模型的人都知道,特徵工程是建模最核心的過程,我們不僅把積累的數據字段推送到建模環境中供合作方使用,也會通過我們的核心模型加工訓練方法提煉出對業務方行之有效的特徵變量,並輸送到建模環境中,幫助我們的合作方更好地搭建自己的模型。

同時,我們的模型可以基於合作方的業務需求做定製化建模,不限於風險類的模型,可以是精準營銷類的模型,也可以是需求預測類的模型等等。

在第二步的模型搭建過程中,可能有一些團隊,尤其是銀行方的建模團隊,對於像機器學習這樣的算法並不是很熟悉或者缺乏一定的業務相關經驗。

如果需要這方面的模型諮詢以及額外的團隊參與和輔導,我們在這個環節也會提供一系列定製化服務,直至最終模型上線。

2.單點的判斷會向羣像特徵演變

第二個趨勢我剛纔也提到了,就是向羣像特徵的演變,現在的欺詐風險,在中國信貸環境下遠高於信用風險。

隨着欺詐手段的不斷升級,欺詐的團伙化特徵也日益明顯,欺詐的上下游產業鏈也越來越龐大,越來越成熟。

僅僅通過對個人的欺詐風險判斷,很難防範團伙作案帶來的影響和損失。

我們提出的漫網技術有效的解決了這個問題:類似谷歌提出的GraphLearning, 對用戶全方位的關聯關係進行識別,包括設備關聯、地址關聯、通信關聯等等。

構建用戶的關係網絡圖譜,通過無監督算法將無差別用戶劃分爲不同羣組,同時針對關聯關係強弱進行判斷設定權重。漫網的優點非常明顯,也有非常成功的應用案例。

這個構建過程的優點是非常多的,不需要做數據打標,也不需要專家經驗,同時還可以做提前預警,我們在內部做了非常多的應用。

在商城註冊上,我們的覆蓋度達到98%,而且準確度達到99%。

在金融刷券類場景,我們的覆蓋率達到92%,準確率達到96%。

有了內部的打磨和迭代,可以將成熟的技術對外進行賦能。

非監督學習的應用會越來越廣泛,我們提出另外一個概念叫“斑馬擴散”,它的含義非常好理解,中國有一句古話叫“近朱者赤,近墨者黑”。

我們不能只關注“黑”而去忽略“白”,這個關聯關係不光是應用在黑名單擴散和反欺詐領域,還可以應用在白名單授信上。

基於我們積累的黑名單歷史記錄和白名單用戶的表現,進行復雜網絡的搭建,結合我們的專家規則,可以把我們的白名單擴散以及額外授信(指商業銀行向非金融機構客戶直接提供的資金,或者對客戶在有關經濟活動中可能產生的賠償、支付責任做出的保證)做大。

這種技術的應用可以在降低授信成本的基礎上大幅提升信貸效率,開闢了金融信貸領域的新天地。

3.特徵挖掘

特徵挖掘是我們非常核心的技術壁壘。

我舉一個具體的例子,大家知道用戶的顯性偏好,往往通過一些表層特徵的挖掘,基於一些線性模型即可得到結論,但往往會出現較大偏差。

如果不能對特徵進行修正的話,結論會產生極大的誤導性。

如果把這些結論作爲業務方面的判斷,甚至會造成災難性的結果。

怎麼對特徵進行修正?

很簡單的做法,我們自下而上地看下這個修正流程。

第一步,我們可以對瀏覽、關注、購物車、交易等表層特徵進行提煉,通過牛頓冷卻定律對特徵進行修正。

牛頓冷卻定律指的是物體當前溫度爲前一時間單位下的溫度與時間衰減因子的乘積。

比如從時間維度考慮,一個用戶最近一個月的消費比六個月前的消費對於判斷用戶偏好的貢獻更大。

引入牛頓冷卻定律,賦予不同時間節點消費特徵不同的衰減因子,可以將特徵的描述準確度提升。

第二步,可以用Wilson區間(威爾遜區間算法,著名排名算法之一)修正低頻行爲下的偏好置信度。

在這裏插入圖片描述

通過這個修正,大家可以看到這個用戶的顯性偏好,這類修正方法在數據不足、頻次較低的情況下是非常有效的。

在沒有完善方法論的時候,可以通過統計用戶在各個領域的購物頻次、RFM的方法(用來衡量客戶價值和客戶創利能力的工具)也能得到用戶顯性偏好的推斷。但對於用戶的隱形偏好,需要更深層的數據挖掘。

比如我們可以將總體平均顯性行爲作爲先驗概率,通過貝葉斯(當分析樣本大到接近總體數時,樣本中事件發生的概率將接近於總體中事件發生的概率)推斷對比推斷用戶的後驗隱性偏好。

這就是我們通過用戶與羣體偏好對比,推斷用戶隱形偏好概率的方法論。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章