淺談信貸評分卡模型

畢竟進入了金融安全這個坑,基本的信貸評分卡模型還是需要知道的,今天就綜合各個方面的資料來講解一下在信貸領域使用的最多的評分卡模型。

整體來說,評分卡是信用風險評估領域的常用建模方法(剛開始是運用在信貸領域,後來這種思想被廣泛地擴展到其他的領域:反欺詐,支付寶信用評估等)。這其實是一種很古老的概念了,大約在18世紀出現了信用卡的雛形,有了信用卡就需要對申請信用卡的人進行信用評估,因此自然而然的就有了信用評分機制,不過剛開始的信用評分機制基本採用的都是專家經驗的方式,由人工根據經驗對每一項申請人的條件進行分值評定。

顯然,人工的方式缺乏科學性,隨着人工智能時代的到來,機器學習方法也被應用到了評分卡場景中來。現在我們再講到評分卡模型,其實大部分都暗示了是應用了機器學習策略的評分卡生成方式。需要強調的是,評分卡並不是簡單地 對應於某一種機器學習算法(雖然現在在評分卡應用場景中LogisticRegression是用的最多的算法),而是一種通用的建模框架,將原始數據通過分箱後進行特徵工程變換,繼而應用於線性模型進行建模的一種方法。
下面是使用機器學習方法來進行評分卡模型的生成過程:
這裏寫圖片描述

之所以要使用評分卡模型這種方式,一方面是因爲其效果其實好,更關鍵的一點是其具有比較好的可解釋性,可以很方便業務專家對模型進行把控。因此對於一些連續性特徵首先要進行的就是分箱(離散化)處理。其中等頻和等寬分箱比較好理解,這個自動分箱就是讓模型自動地選出最合適的離散化方式,其實用的就是對應IV(information Value)值的劃分方式,說到IV值就不得不提到WOE,下面就來介紹一下這兩個概念。
WOEi=In(PgoodPbad)
IV=i=1N(PgoodPbad)WOEi
從中可以看出,IV其實就是WOE的加權求和
所謂WOEi 的下標i就指代了某一連續特徵中的第i個分段位的WOE值
其中一種分段方式即WOE的計算方式如下所示:
這裏寫圖片描述

其中關於IV值的相關描述如下所示,值越大代表特徵和目標的相關性越強:
這裏寫圖片描述

下面就來講解一下評分卡具體的計算方法:
定義odds=p1p
評分卡設定的分值刻度可以通過將分值表示爲比率對數的線性表達式來定義。公式如下:
scoretotal=A+BIn(odds)
設定比率爲θ0 的特定點分值爲P0 ,比率爲2θ0 的點的分值爲P0+PDD ,帶入上式就可以很方便的求出A和B值。

一般來說我們會用Logistic Regression來表徵對於P值的估計,公式如下:
P=11+eθTx
則有odds=In(p1p)=θTx
故有scoretotal=A+B(θTx)=A+B(w0+w1x1+....wnxn)=(A+Bw0)+Bw1x1+....+Bwnxn
其中A和B在之前的佈置中已經計算出來了,xn 是特徵數據的WOE編碼,最終轉化生成的評分卡形式如下所示:
這裏寫圖片描述
這樣來了一個用戶申請之後,就可以根據評分卡得出最終用戶的信用得分,進而決定是否是否接受該用戶的借貸申請。
需要注意的是,上面這種做法只是一種經典的做法,但不是唯一的做法。比方說對於同一變量x1 ,它的不同的WOE可以對應不同的w係數。同時不一定採用WOE編碼(只不過這種編碼方式在信貸評分場景中更常用),還有很多種其他的編碼方式可以選擇,比方說one-hot編碼等。

同時可以擴展的是,不一定要針對全部的用戶用一張評分卡模型,可以按照類似決策樹的方式對用戶進行分類,針對每一個子類的用戶生成一份具有針對性的評分卡模型。如下所示:
這裏寫圖片描述
這裏寫圖片描述

還有最後一個額外的擴展點,有時候往往因爲業務的需要,我們需要對這些係數w1 ,wn 的大小做一個限制(往往業務專家希望對應WOE值大的變量的變量所對應的係數w 也要大一些),這就要求在進行模型訓練的時候採用相應的策略:
無約束的優化算法:SGD,Newton Method,L-BFGS
有約束的優化算法:Barrier Method,SQP(Active Set Method)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章