機器學習算法原理系列篇3: 評分卡模型與邏輯迴歸

關注微信，查看更多精彩文章：

在系列篇第一章，我們已經提到這個機器學習算法原理系列採用的是倒敘的手法。那麼在上一章中，我們提到了怎麼去評價一個模型的結果，那麼今天，我們開始來了解具體有哪些建模的技術手段。從大的分類而言，在注重分類模型的應用領域，比如金融風控領域，常用的有評分卡建模和更廣泛的機器學習建模兩種。

評分卡建模比較傳統，應用廣泛。技術特點上，它主要處理離散型變量，如果有連續變量，需要把連續變量離散化，同時評分卡關注的變量個數通常不會太多。因此，評分卡模型的主要優點在於好的可解釋性和穩定性。同評分卡模型相比，機器學習建模更加靈活，對變量個數和變量類型都沒有硬性要求。因爲算法種類繁多，機器學習建模能處理的問題深度和廣度都有了很大的提高。

1. 評分卡模型

傳統的評分卡模型應用範圍相對機器學習建模較小，通常可以具體分爲幾個常用的應用場景，比如人們常提到的A卡（Application score card）即申請評分卡， B卡（Behavior score card）即行爲評分卡, 和C卡（Collection score card）催收評分卡。顧名思義，這三種評分卡模型的主要區別有兩點：

在業務中使用的時間點不同。A，B，C卡分別側重於貸前，貸中，和貸後三個場景。
對數據的要求不同。A卡主要用於貸款初期的用戶信用預測，可以使用的數據主要是客戶基本數據和外部數據，一般在一年以內； B卡則是在客戶有了一定的歷史記錄和行爲以後，針對較多的行爲數據進項分析，時間積累在3到5年；C卡的建立則對數據要求更大，需要加入催收客戶的反映等行爲數據。

1. 1. 評分卡模型中的WOE計算

在弄清楚評分卡的數學原理之前，首先要理解幾個非常相關的統計變量，其中一個是WOE，或者Weight of Evidence. 另一個是IV score，或者information value。WOE是在風險預測領域一種常用的衡量自變量分組對於好壞樣本分離程度的指標，而IV通過WOE加權求和得到，用來衡量自變量對目標變量的預測能力。在評分卡模型的應用中，WOE自動把連續變量和枚舉變量編碼爲離散種類，並且爲每一個種類賦予唯一的WOE值(數值型)。

首先對於某一變量而言，可以用變量的取值對整個歷史數據（客戶羣）進行分層，分組或者分箱。離散型的變量比較好理解，比如顏色，每一個顏色自然的把數據分成了多個組。連續型變量，需要對取值範圍預先規定。比如年齡，小於18歲的可能是一個組，大於50歲的可能是另一個組。可以理解，如何分組和具體業務也有密切關係。另外我們也可以通過量化的方法對某一變量自動的分組以達到最佳效果。具體的量化方法我們在後面可以專門討論。

計算WOE的數學公式如下：

如果我們定義風險預測中的壞客戶出現爲一個事件（event），其中 Nattribute non-event表達的是非事件(好客戶)在某一分層中的數量，Ntotal non-event表達的是所有非事件(好客戶)的數量，Nattribute event表達的是事件(壞客戶)在某一分層中的數量，Ntotal event表達的是所有事件(壞客戶)的數量。那麼上式表達的就是好客戶在某一分層中的比例除以壞客戶在同一分層中的比例，再取自然對數，即爲該變量在某一分層中的WOE值。

我們以一個具體的變量比如年齡（Age）來舉例說明具體的計算方式。如下表所示，假設總共有1000名好客戶，和200名壞客戶，按照下表所示四個年齡段分層，根據歷史數據和表現結果，可以得到好壞客戶在每一年齡層中具體數量。WOE值的具體計算則在最後一列中得以展現。可以看出，WOE的計算方式，把年齡這個連續的變量，統一的轉化爲WOE值，而且WOE的取值只有四種可能的值，分別對應了不同的年齡層。

Age	好客戶(good)	壞客戶(bad)	good%	bad%	WOE=ln(good%/bad%)
<=18	250	100	0.25	0.5	ln(0.25/0.5)
18-35	250	50	0.25	0.25	ln(0.25/0.25)
35-50	250	30	0.25	0.15	ln(0.25/0.15)
>50	250	20	0.25	0.10	ln(0.25/0.10)
總計	1000	200

考慮到當歷史數據量較少時候，某些分層中好客戶或者壞客戶的數量可能爲零，從而導致WOE計算出現異常值，處理方法爲：可以預先增加平滑因子x，確保WOE的計算成功。修正過的WOE計算公式爲：

其中x可以取0到1之間的數字，比如0.5。

在WOE的意義和計算方式清楚以後，IV的計算方式是和WOE緊密相關的，其具體計算公式爲：

其中，m爲該研究變量具體的分層數量。從公式可以看出IV其實是每一層WOE值的一個加權平均。IV值越大，代表研究的變量對目標變量的預測效果可能越明顯。IV值通常用來進一步篩選變量，對於低於某一閾值的變量，可以視爲不理想變量，在評分卡具體計算中不參與模型。通常的評斷方法如下，但是用戶應該根據自己的實際效果謹慎決斷：

IV 低於0.1, 改變量對於目標變量預測能力較弱
IV 大於0.1小於0.3, 改變量對於目標變量預測能力中等
IV 大於0.3小於0.5, 改變量對於目標變量預測能力較好
IV 大於0.5, 考慮改變量對於目標變量有過度預測傾向

1. 1. 評分卡與邏輯迴歸

評分卡通常和邏輯迴歸算法搭配使用。邏輯迴歸算法和其他很多機器學習算法一樣需要的輸入值必須是數值類型。

在評分卡具體使用建立中，首先我們通過上述的方法得到各個變量的輸入值即爲相應的WOE值，然後把各個變量的WOE值代入邏輯迴歸算法，即得到了評分卡的輸出值。

邏輯迴歸算法的原理和推導在後面的章節中會有討論，這裏我們直接給出邏輯迴歸的結果：

上式中， p/1-p 被稱爲比值比或者優勢比，可以看出邏輯迴歸其實是在用線性方程來估計優勢比的自然對數值。邏輯迴歸的優化過程就是在尋找最佳的參數（β0,…, βn）的過程。

在風險預測的場景中， p可以定義好客戶的概率，1-p則爲壞客戶概率。邏輯迴歸算法的最終輸出值是優勢比的自然對數，因此可以看出，當被預測客戶爲好客戶的概率越大（或者爲壞客戶的概率越小），ln(p/1-p)對應的值越大。基於預測對象好壞概率和邏輯迴歸預測值的單調對應關係，評分卡模型進一步通過下面的公式把邏輯迴歸結果以線性轉化的方式變爲分數：