互金信用評分建模四步驟

一、數據描述

數據採集

具體而言,分別爲交易事實表,用戶信息表,商戶分類信息表,以及銀行卡信息表,它們之間的關係如圖4所示。這四張表格分別通過不同的關鍵字連接,具體如下:a. 用戶信息表可以通過用戶手機號碼和交易事實表對應,一個用戶手機號碼對應多個交易事實記錄;b. 商戶分類信息表可以通過商戶編號和交易事實表對應,多個交易事實可能產生於一個商戶編號;c. 銀行卡信息表可以通過銀行卡的前幾位數字(稱爲卡標首)和交易事實表中的卡號對應。

四張表格中包含的具體變量信息分別如下:

用戶信息表:手機號,註冊渠道(手機APP註冊,或者網站註冊),身份證(提供數據已加密),提取數據前最近一次的登錄時間,註冊時間等。

商戶分類信息表:創建時間,商戶號,商戶名稱,商戶1級分類代碼,商戶1級分類名稱,商戶2級分類代碼,商戶2級分類名稱,商戶3級分類代碼,商戶3級分類名稱,商戶4級分類代碼,商戶4級分類名稱等。

銀行卡信息表(銀行卡卡片類型信息):卡標首(銀行卡的前幾位數據,決定了屬於哪一家銀行的哪一種類型的卡片),首長度(例如前6位數字決定了卡片類型,則首長度爲6),賬戶類型,賬戶類型名稱(例如儲蓄卡或者信用卡),卡代碼,銀行代碼,銀行名稱等。

交易事實表:流水號(每一筆交易會被制定一個流水號碼),交易手機號,交易時間,商戶號,賬單號,支付金額(支付金額等於賬單金額加手續費的總和),賬單金額,手續費等。

綜上所述,上述四張表格可以通過不同的關鍵字分別進行匹配連接,從而能夠對應到一個用戶的多行交易信息在下一小節中,我們將詳細闡述數據的變量提取過程。

 

圖4 XXX分期產品用戶數據結構

數據清理變量採集

首先,按照關鍵字將所有四張表格合併。每一條觀測以一個用戶的一次交易行爲爲單位,包含用戶個人信息,銀行卡信息,商戶分類信息等,總觀測行數近450萬條。直接處理並不是一個好的解決方法,這樣產生的數據量太大,且不直觀利於分析。我們的目標是將所有的信息彙總到每一個用戶,定義關於用戶的衍生變量。從而,我們分成兩個方向的變量來刻畫用戶特徵,分別是:用戶基礎信息變量以及用戶分類信息變量。接下來,我們將進行詳細的定義。

用戶基礎信息變量

此處生成的用戶基礎信息變量包括直接可以從數據中收集的變量以及衍生變量,如下所示:

(1) 用戶的得分:由於目標要對於原始的綜合得分進行預測精度的改進,我們將“熊得分”作爲解釋變量納入模型,“得分”是XX貸公司的業務人員根據實際業務定義的指標體系從而生成的得分,我們認爲其具備一定的業務經驗以及背景知識,從而也具備較強的預測能力。熊得分越低,越有可能違約。

(2,3)用戶性別,用戶年齡:通過用戶身份證號可以提取一個用戶的性別,年齡信息,這些數據我們通過與熊小貸公司溝通完成,熊小貸公司並不直接提供用戶的身份證號。獲取的身份證信息均爲加密過後的信息。

(4)用戶的註冊年齡:即用戶從第一次有交易記錄開始距離現在的時間長度,以天爲單位。

(5)交易筆數:用戶自從第一筆交易記錄開始,被記錄的交易總筆數。

(6)所有行爲均值:用戶被記錄的所有交易行爲的平均金額。

(7)所有行爲最大值:用戶自從第一筆交易開始,所有交易行爲的金額的最大值。這個指標可以度量用戶的極端行爲情況。直觀來看,極端行爲越大的用戶越有可能違約。

(8)借貸比率:用戶所有行爲中,採用貸記卡(或稱爲信用卡)交易的次數佔所有采用貸記卡或者借記卡(或稱爲儲蓄卡)交易次數的比率。這個指標衡量的是用戶的交易習慣,例如,有些人習慣直接採用儲蓄卡進行消費,而也有些人習慣每個月採用信用卡先進行消費,到了還款日再按時還款,這樣既可以消費,又不影響每個月的理財計劃。這兩種消費習慣的用戶羣體不同。

(9)銀行卡數:我們每個人需要的銀行卡數並不多,銀行卡太多的用戶與正常用戶羣體不同。例如,如果需要多張信用卡消費,但是卻還不上信用卡的人可能更容易違約。

通過以上信息,我們定義了以上這9個用戶基礎信息變量。

用戶分類信息變量與RFM模型

 

圖5 RFM模型圖示

在營銷領域,RFM模型是用來衡量客戶的價值和客戶的創利能力的重要工具和手段。這個模型通過一個客戶的近期購買行爲、購買的總體頻率以及花了多少錢三項指標來描述該客戶的綜合價值,具體如下:

(1) R(Recency),最近一次消費,指上一次購買的時間到現在的距離。理論上,上一次消費時間越近的用戶應該是相對而言活躍的用戶。因此這些用戶對於提供即時的商品或是服務也最有可能產生反應。而我們通常也會發現,對於0到6個月用戶收到營銷人員的溝通信息會多於31至36個月的用戶。

(2) F(Frequency),消費頻率,即用戶在限定的期間內產生購買的總次數。最常產生購買的用戶,忠誠度最高的用戶。

(3) M(Monetary),某個用戶所有消費金額的平均值。通過這一指標可以驗證“帕雷託法則”(Pareto’s Law),也就是說公司80%的收入來自20%的顧客。

在此案例中,我們將重新定義這三個指標,並藉助這三個指標來概括用戶所產生一類行爲的特徵,如表格1所示。而由於這三個指標並不能夠衡量用戶產生行爲的波動性,所以我們增加一個指標S(Standard Deviation)來衡量用戶行爲的波動性。例如,對於購買遊戲點卡類行爲,我們可以定義R爲用戶最近一次購買遊戲點卡距離數據提取時間的時間間隔,F定義爲一年內用戶購買遊戲點卡的次數(考慮到用戶註冊時間不一樣,此處採用的頻數需要採用用戶年齡進行標準化,即總次數除以用戶年齡。用戶年齡的定義將在下文中詳述),M定義爲一年內用戶每次購買遊戲點卡的平均金額,S定義爲用戶每次購買遊戲點卡金額的標準差。我們將所有變量記作類別名稱加指標簡稱的形式,例如遊戲R。

表1 RFM指標定義

指標簡稱

指標定義

R

一年內用戶最後一次產生某類行爲距離提取數據的時間

F

用戶在一年內產生某次行爲的頻數

M

用戶在一年內產生某類行爲的平均金額

S

一年內該類行爲產生金額的標準差

用戶行爲的分類通過銀行卡信息表,以及商戶分類信息表,根據業務場景,我們提取了以下類別,每個類別都對應着以上我們已經定義好的RFMS四個指標。類別包括:

(1)借記類:刻畫用戶使用儲蓄卡的交易行爲。不同的用戶習慣不同,採用儲蓄卡和信用卡的傾向也可能不同。

(2)消費類:刻畫用戶的日常消費行爲。日常消費行爲的金額以及頻次不同,用戶的還款能力可能不同。

(3)信貸類:刻畫用戶之前的小額貸款類行爲。用戶之前如果有其他消費貸款類行爲可能已經習慣進行消費貸款,從而可能具備更良好的信用狀況。

(4)轉賬類:刻畫用戶的轉賬行爲。經常通過熊小貸APP轉賬的用戶可能與不轉賬的用戶行爲不同。

(5)話費類:刻畫用戶的話費充值交易行爲。話費充值是否規律與充值金額多少都可能意味着用戶羣體不同。

(6)公繳類:刻畫用戶交水,電,煤氣費等交易行爲。公繳費用的多少與是否規律也可能說明用戶羣體的不同。

(7)遊戲類:刻畫用戶購買遊戲點卡的行爲。經常玩遊戲的用戶羣體可能與不玩遊戲的人不同。

(8,9)四大行卡類以及中型銀行卡類:四大行包括中國銀行,中國農業銀行,中國工商銀行,中國建設銀行,中型銀行包括招商銀行,浦發銀行,興業銀行,平安銀行等。這個指標的設定有以下兩方面原因:a. 不同公司的工資卡不同,小型創業公司一般採用中型銀行的銀行卡;b. 四大行的信用卡發放較爲保守,所以能夠申請到四大行信用卡的人可能和採用其他銀行信用卡的用戶羣體不同。

(10)白金及金卡類:通過卡標首可以對應到銀行卡是屬於哪家銀行的哪種類型的卡,例如招商銀行的金葵花卡。我們搜索整理了相應銀行的金卡和白金卡卡種名稱,並對應到每一個用戶。我們初步認爲,擁有白金卡和金卡的用戶具備更高的還款能力,所以用戶羣體不同。

綜上所述,我們一共提取了10個類別,每個類別4個指標,共計40個分類信息變量來全方位立體的刻畫一個用戶的全部交易行爲。

數據預處理與數據彙總

爲了數據質量考慮,我們去掉“用戶註冊年齡”小於10天的用戶,原因在於,這一部分用戶的觀察行爲較少,並不足以代表穩定的用戶自身特徵。另外,在對數據進行描述分析後,模型建立之前,我們將所有連續數據做對數處理,並進行標準化。由於所有樣本均來自於交易行爲的歸納彙總,故只要用戶有交易行爲,分類信息變量就不存在缺失,故此處不需要缺失數據填補。

最終,我們的數據共包括28816個用戶,其中違約用戶爲9115個,非違約用戶19701個;結合9個用戶基礎信息變量,我們的數據共包括49個解釋性變量,這49個變量也包含着對於業務的理解和思考。這對於刻畫用戶的所有行爲而言,只是初步的探索和嘗試,但是相較於只採用用戶自填信息進行建模而言,已經更爲綜合和全面。

二、數據建模

在建模部分,我們將先通過幾個變量的基礎描述分析,以說明變量的特徵,繼而通過建立邏輯迴歸模型對於預測效果進行闡述。

描述性分析

出於數據隱私考慮,我們只針對於其中6個變量作箱線圖分析。箱線圖能提供有關數據位置和分散情況的關鍵信息,尤其在比較不同的總體數據時更可表現其差異。此處我們通過對比箱線圖對數據進行分析。我們用 0表示違約用戶, 1表示非違約用戶。

(1)得分與是否違約。從箱線圖可以看出,非違約用戶與違約用戶的箱線圖有明顯的差別,這表明熊得分對於違約與非違約用戶具有較好的區分度。

(2)交易筆數與是否違約。從箱線圖可以看出,非違約用戶較違約用戶而言,交易筆數更高。

(3)用戶所有行爲均值與是否違約。從箱線圖可以看出,非違約用戶與違約用戶相比較,所有行爲金額的均值較高。

(4)借記卡F與是否違約:通過箱線圖可以得出,非違約用戶的借記卡F平均高於違約用戶。表明非違約用戶借記卡的使用頻數更高。

(5)四大行M與是否違約:通過箱線圖得出,非違約用戶的四大行卡的行爲平均值較高,這說明非違約用戶更多使用四大行的銀行卡。

(6)信貸R與是否違約:從圖中能夠得出結論,非違約用戶通過APP產生借貸行爲距離現在的日期,相對於違約用戶而言較近。

通過以上描述分析,我們已經能夠觀察到在所提取特徵中違約用戶與非違約用戶的不同,通過迴歸分析,我們將進一步說明通過變量特徵的設定帶來的預測效果的提升。

 

圖6 典型變量箱線圖

模型設定及估計結果

本案例中採用邏輯迴歸進行建模,原因在於,根據邏輯迴歸結果,我們能夠直觀看到每一個變量對於因變量是否違約的作用大小,有利於係數解釋。但由於變量過多,我們很難對於所有變量進行符合預期的係數解釋,進一步地,我們採用BIC的方法選擇模型。相比較於AIC而言,BIC模型選擇的方法選擇的變量個數較少,更有利於模型的估計係數解釋。

BIC選模型的估計係數結果如表2所示,由於係數較多,我們省去估計量的估計誤差和P值的具體數值,只用“*”標註P值的大小。但注意,當迴歸係數過多時我們難以直觀展示係數結果,爲此,我們根據估計係數的正負將變量分類,再按照絕對值的大小排序整理得到圖7和圖8。由於模型主要分析“熊得分”之外其他變量帶來的預測效果的提升,我們只繪製除“熊得分”之外其他變量的係數。

我們並不逐一解釋每一個係數的大小及其含義。值得注意的是,從圖7中我們可以總結歸納得出非違約用戶的特徵,從圖8中可以總結歸納出違約用戶的特徵,通過這兩幅圖已經可以總結出較爲直觀的對於違約與非違約用戶的理解。我們通過進一步觀察可以直觀得出的結論包括但不限於:

在其他變量控制不變的情況下,借貸比例越高的用戶違約可能性越低,這與銀行的信用卡額度提升相似,對於經常使用信用卡並按時還款的客戶更有可能被銀行認爲信用良好,從而希望改用戶提高信用額度,而如果不經常使用信用卡則無法判斷。從而借貸比例越高,表明用戶越習慣使用信用卡,進一步越有可能是信用良好的用戶。另一方面,用戶申請銀行的信用卡需要通過銀行的信用評估,故有信用卡的用戶較沒有信用卡的用戶會有所不同。

表2 BIC選模型迴歸係數結果表

變量名

估計值

p值

變量名

估計值

p值

熊得分

26.301

***

轉賬R

-0.336

***

借貸比率

1.752

***

年齡

-0.254

***

借記卡F

0.438

***

公繳R

-0.230

 

用戶所有行爲均值

0.412

***

四大F

-0.175

***

交易筆數

0.136

***

四大R

-0.168

***

借記卡M

0.083

***

中型F

-0.122

***

中型M

0.016

***

中型R

-0.119

**

四大M

0.014

*

消費F

-0.096

**

信貸R

-0.922

***

金卡F

-0.083

***

銀行卡數

-0.674

***

轉賬M

-0.082

***

信貸F

-0.633

***

公繳M

-0.062

**

用戶所有行爲最大值

-0.474

***

遊戲M

-0.059

*

轉賬F

-0.386

***

信貸S

-0.035

***

公繳F

-0.370

*

     

注:***表示P<0.01,**表示0.01≤P<0.05,*表示0.05≤P<0.1。

借記卡F越大用戶違約可能性越低。這表明其他變量不變,用戶使用儲蓄卡頻數越高,越可能是信用良好的用戶。在其他變量保持不變的情況下,用戶每一次交易行爲的平均值越大越可能是非違約用戶。控制其他變量不變,信貸R越小越可能是非違約用戶。這一點與之前觀察的箱線圖吻合,越近產生消費借貸行爲的人,越有可能是非違約用戶。注意這裏產生的借貸行爲與Y對應的是否違約並非同一次借貸行爲。其他變量水平不變,銀行卡數越多,越有可能是違約用戶。保持其他變量不變,用戶行爲最大值越大,越可能是違約用戶。這也驗證了我們之前的結論,用戶的極端行爲越極端,越有可能是違約用戶。

 

圖7 BIC選模型結果正係數

 

圖8 BIC選模型結果負係數

模型預測結果

我們將對比以下三種模型的預測效果,因變量Y相同,爲用戶是否違約( 1,用戶非違約, 0,用戶違約):a. 只根據“熊得分”建立的邏輯迴歸模型;b. 用所有49個變量,包含用戶基礎信息變量與用戶分類信息變量建立的邏輯迴歸模型;c. 在b模型的基礎上通過BIC模型選擇方法建立的模型。

衡量模型的預測效果可以採用指標ROC(Receiver Operating Characteristic)曲線或者AUC(Area UnderCurve)值。其中ROC曲線的橫座標爲false positive rate(FPR),也稱爲Specificity,刻畫的是模型預測錯了,認爲爲1但真實爲0的觀測佔所有真實爲0的觀測的比例。縱座標爲true positive rate(TPR),也稱爲Sensitivity,刻畫的是模型預測所識別出的爲1且真實爲1的觀測佔所有真實爲1的觀測的比例。ROC曲線越貼近左上角,表明模型的預測效果越好。AUC是ROC曲線下的面積,這一指標取值越大表明模型預測的效果越好。通常在計算中也可以考慮如下公式:

 

其中 表示 的真實取值爲0的集合, 表示 的真實取值爲1的集合, 表示 真實取值爲0的觀測個數, 表示 真實取值爲1的觀測個數。這一指標可以理解爲,真實爲1的的預測非違約可能性不小於真實爲0的的預測非違約可能性的比例。

爲了模型對比,我們隨機將所有數據劃分爲訓練數據集(80%)和測試數據集(20%),在訓練集上估計模型的迴歸係數,將所有係數帶入測試數據中進行計算,預測非違約可能性。隨機拆分被重複了100次。我們隨機抽取其中一次繪製ROC曲線如圖9所示。其中,Score表示模型a的預測結果,模型中只包含“熊得分”,Full model表示模型b對應的預測結果,BIC表示模型c對應的預測結果。從圖中可以得出結論,在b模型與c模型的預測效果接近,二者都要遠遠好於a模型的預測效果。進一步地,我們將100次隨機拆分計算得到的AUC值取平均。出於行業數據機密,我們此處不彙報AUC的絕對提升結果。但是相對於 a模型而言,b模型和c模型的預測效果將相對提升13.6%。這將直接使得我們能夠在實際業務中更精準的判斷出用戶的信用狀況。

 

圖9 迴歸模型對比ROC曲線

三、業務實施

對於小貸公司而言,收益是靠收益率體現,而成本則體現在壞賬率。也就是說對於現在的市場存在收益和成本的不對等。所以纔會有P2P公司如雨後春筍般出現,爲了在這個利潤豐腴的市場分一杯羹。現在的小貸公司可以通過較爲嚴苛的指標篩選用戶,從而保證違約率一直維持在較低的水平,也就是說,現在的網絡借貸公司也許並不需要藉助紛繁複雜的技術手段就可以獲得較高的收益。但是隨着市場的飽和,越來越多的公司進入競爭的行列,在可預見的將來,我們可以看到違約率的提高,收益率的下降。到了那時候,拼的不再是跨入市場門檻的勇氣,而是誰能夠通過技術實力真正的選準用戶,穩定住壞賬率這一指標。

在業務層面,首先,我們需要通過更多數據來驗證以上模型結果真實可靠。通過熊小貸公司提供的不同數據,我們已經驗證了這一結果。而通過以上數據建立模型的預測結果可以直接進行以下兩方面的工作:

(1)利用預測非違約率來輔助判斷是否應該批准用戶貸款,即進行用戶選擇。例如,同樣的兩個用戶申請貸款,A用戶的預測非違約率爲0.85,B用戶的預測非違約率爲0.27。那麼在資金預算有限的條件下,如果只能批准一個用戶進行貸款發放,通過模型就會選擇發放給非違約可能性更高的用戶A用戶。也就是說,通過模型的預測能夠幫助我們篩選發放貸款的目標用戶。而精準的預測將能夠降低我們的貸款成本。

(2)利用預測概率改進APP中的熊得分。例如,通過線性變換可以將預測概率P轉化爲400至800的用戶得分Q,Q=400+400×P。從而能夠更新平臺上的熊得分,使得熊得分更加準確。

另外,本案例中的模型證實了用戶的交易記錄數據對於徵信模型的重要作用,對於業務上拓展數據源也有重要的指導意義。

四、總結討論

本文針對互聯網徵信背景下的信用評估模型進行了探討,通過具體的案例證明了用戶歷史行爲數據對於用戶的信用評估具有重要作用。這其中最值得注意的是,業務背景對於指導建立模型具有不可替代的作用,所有的變量產生都應該建立在對於業務背景知識的透徹瞭解之上。另外,關於本案例的研究有以下可能的改進方向:

(1)在數據中我們只考慮違約情況爲01變量,即,違約與非違約。其中,如果用戶違約天數大於等於7天被定義爲違約,否則爲非違約。如果能夠記錄用戶真實的違約天數作爲連續變量,將可能對於模型預測有進一步的幫助。

(2)在本案例中收集的數據只是通過某特定第三方支付平臺的所有交易數據,並不能代表用戶的所有銀行卡交易狀況,如果能夠收集到用戶的所有數據,則將對於用戶的交易行爲做出更全面客觀的刻畫。

(3)從本案例的研究中可知,不同平臺的數據對於信用評估可能有不同的優勢。從央行下發牌照的8家機構看來,不同機構的數據源不同,各具特色,於是如何能夠將不同數據源的數據進行統一後,建立綜合的信用評估模型,是值得深入探討的問題。例如,一個用戶可能在京東平臺和淘寶平臺上的信用得分不一樣,這與用戶的平臺偏好有關,但是如果能夠根據不同平臺的結果綜合對用戶進行信用評估,則將得到更準確的結果。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章