廈門國際銀行 “數創金融杯”數據建模大賽-冠軍分享

歡迎各位同學學習python信用評分卡建模視頻系列教程(附代碼, 博主錄製) :

騰訊課堂報名入口

網易雲課堂報名入口

(微信二維碼掃一掃報名)

比賽官網

https://js.dclab.run/v2/cmptDetail.html?id=439

賽題任務

信用風險是金融監管機構重點關注的風險,關乎金融系統運行的穩定。在實際業務開展和模型構建過程中,面臨着高維稀疏特徵以及樣本不平衡等各種問題,如何應用機器學習等數據挖掘方法提高信用風險的評估和預測能力,是各家金融機構積極探索的方向。本次競賽提供實際業務場景中的信貸數據作爲建模的對象,希望能借此展現各參賽選手數據挖掘的實戰能力。本次賽題給出20個非匿名的業務字段以及84個匿名字段,在極不平衡的樣本數據中,預測客戶是否會出現信用違約行爲。

賽題難點

①數據的高維稀疏性導致數據的可利用性降低,給模型學習能力的提升帶來了困難;②數據的極度不平衡,導致模型極其容易出現過擬合問題;③匿名字段的處理:如何理解並使用匿名字段中潛在的業務意義;④新舊數據探索:如何衡量新舊數據的差異,如何把握特徵的新舊差異,以及如何構建合適的驗證策略;

賽題數據

(1)數據總體概述本次數據共分爲兩個數據集,train_x.csv、train_target.csv和test_x.csv,其中train_x.csv爲訓練集的特徵,train_target.csv爲訓練集的目標變量,其中,爲了增強模型的泛化能力,訓練集由兩個階段的樣本組成,由字段isNew標記。test_x.csv爲測試集的特徵,特徵變量與訓練集一致。建模的目標即根據訓練集對模型進行訓練,並對測試集進行預測。​(2)數據字段說明a)爲用戶基本屬性信息id, target, certId, gender, age, dist, edu, job, ethnic, highestEdu, certValidBegin, certValidStop,

b) 借貸相關信息 loanProduct, lmt, basicLevel, bankCard, residentAddr, linkRela,setupHour, weekday,

c) 用戶徵信相關信息 x_0至x_78以及ncloseCreditCard, unpayIndvLoan, unpayOtherLoan, unpayNormalLoan, 5yearBadloan 該部分數據涉及較爲第三方敏感數據,未做進一步說明。

評分指標

1. 初賽成績排名根據測試集的AUC確定。

2. 評分採用AB榜形式。排行榜顯示A榜成績,初賽和複賽結束後12小時切換成B榜單。B榜成績以選手提交的最高分爲準。

3. 複賽成績=(101-初賽排名)*0.7+專家評定成績*0.3。專家評分將綜合參考解決方案中的創新性、複雜度、穩定性等多項指標。專家委員會將爲風控業務專家、科研機構數據挖掘專家等組成。

4. 決賽成績=複賽得分*0.6+決賽答辯成績*0.4。競賽最終排名由決賽成績排名確定

客戶違約風險預測模型框架

上圖給出了整體的方案框架,

特徵工程

在觀察訓練集與測試集樣本中我們發現測試集中出現的部分客戶貸款記錄是訓練集中所沒有的,這意味着訓練出來的模型將學習不到測試集中這部分貸款記錄信息,從而導致模型出現預測誤差。

根據特徵的違約頻率分佈可視化,可以明顯看到分佈比較混亂。減少特徵分佈混亂的數據導致的噪聲問題,提高模型的學習能力​。這類使用了分箱的方法,減少數值噪音,​提高模型泛化性。

當學歷水平與最高學歷水平相等時,用戶違約率極低,僅有0.2273%,在一定程度上反應了客戶的信用水平。下面進行了更細粒度的特徵挖掘。

長尾分佈特徵、匿名特徵處理

在風控領域,標籤對主體特徵(具體到ID)非常敏感,這和CTR領域類似,故我們通過構造欺詐率特徵來表徵類別特徵,獲得了極高的收益,該特徵描述的是某個屬性,欺詐的概率。但在實際的構建過程中,直接使用均值會造成標籤泄漏,這裏我們採用Kfold方式進行欺詐率特徵提取。將訓練集分爲5個fold,每個fold使用其餘4個fold的欺詐率作爲特徵。

特徵篩選

對全量訓練集五折交叉驗證後,在線下AUC指標增加的情況下,選取訓練集中isNew=1的數據集進行線下的五折交叉驗證,當線下AUC與線上AUC都增加時,才保留該部分特徵。從而保證線下線上的一致性。

模型建立、調參、融合XGBoost將上述XGB框架構造的特徵工程加載到XGBoost模型中進行訓練,線上可以達到A榜TOP5的成績(線上AUC=0.816)。CATBoost將CATBoost構造的特徵工程加載到CATBoost模型中進行訓練,線上可以達到TOP5的成績(線上AUC=0.811)。Rank加權幾何平均

創新點

①潛在的欺詐行爲發現。

②僞標籤訓練集的構建,增強了模型學習測試集的能力;

③挖掘了更細粒度的特徵信息,更貼近實際的業務意義,特徵解釋性強;

④雙重線下驗證的特徵篩選,保證了模型的穩定性;

轉載https://zhuanlan.zhihu.com/p/149985365?from_voters_page=true

 

歡迎學習更多python金融風控評分卡模型和數據分析微專業課

騰訊課堂報名入口

網易雲課堂報名入口

(微信二維碼掃一掃報名)

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章