信用風險評估之預測力指標（篩選特徵）

原創

2020-02-20 16:00

在建模時，被用來預測的變量（即feature）相互間不能有很強的相關性，最好完全不存在相關性。
評判變量間的預測力指標有皮爾森相關係數，斯皮爾曼相關係數，皮爾森卡方統計量，概率比，信息值等。

1.皮爾森相關係數pearson
連續變量x,y（兩列feature）, 皮爾森相關係數ρ：

取值區間[-1,1]。
0表示無相關性即相互獨立，越接近於0，相關性越小；
-1爲負的強相關性；
+1爲正的強相關性。

去均值化的ρ即爲餘弦夾角公式：

小結：
1》皮爾森相關係數會受數據錯誤或極端值的影響而不穩定。
2》皮爾森相關係數計算的是每個觀測值與均值間的差值，適合連續變量間的相關性計算，就不適合順序/名義變量間的相關性計算。
3》越接近0，相關性越小。

2.斯皮爾曼相關係數spearman
斯皮爾曼相關係數的計算採用取值的等級，而不是取值本身。當取值按升序排列時，取值的等級就是該取值的順序。如12,5,8的等級爲3,1,2。計算公式類似皮爾森相關係數：

R,S是兩個變量的取值對應的等級。
小結：
1》斯皮爾曼相關係數適用於順序變量間的相關性計算。
2》斯皮爾曼相關係數對於數據錯誤和極端值不敏感。
3》越接近於0，相關性越小。

3.皮爾森卡方統計量
皮爾森卡方統計量用X²表示，衡量兩個名義變量間的相關性。
下面以一個例子來說明卡方統計量，如下爲住房與就業的人數統計表。

第i行第j列的預期頻數爲：

也即表格中小括號中的計算數據。

卡方統計量的定義如下：

X²服從自由度爲df=(r-1)(c-1)的卡方分佈。r,c是表中數據的行與列。

其中，卡方分佈即伽馬分佈函數如下

獨立性假設的概率：

當概率值越小，標明兩個變量間獨立的概率越小，即兩變量間有很強的相關性。

上表數據對應的卡方統計量計算得：

說明就業和居住狀況之間存在很強的相關性。

4.似然比檢驗統計量
兩個變量是名義變量

觀察樣本中計算的真實頻率分佈與已知概率總體分佈的差異：

兩個名義變量x,y的似然比統計量定義爲：

爲何4.22公式是服從卡方分佈的？？？暫時不理解，先記下來。
那麼，通過似然比檢驗統計量可以得出兩個變量間的相關性，具體判斷類似卡方統計量。

5.概率比
兩個變量是名義變量。

如上表，
當變量x取x1時的違約比率odds=n11/n12;
當變量x取x2時的違約比率odds=n21/n22;
概率比的定義：

若概率比爲1或趨近1，那麼兩個變量之間不存在相關性。

概率比在logistic迴歸建模製定打分卡起着關鍵作用。

6.F檢驗
F檢驗衡量一個連續變量與一個名義變量之間的關聯性。誰是因變量無所謂。

先舉例引入兩個參數MSTR,MSE，如下表：

p表示無關聯性的概率。p小表示，關聯性強。

7.基尼方差
基尼方差衡量三種情況的變量間的相關性：
1>一個連續變量，一個名義或順序變量；
2>兩個名義變量；
3>兩個順序變量。
考慮一個連續變量x和一個名義變量y的情況。基尼方差可以定義爲：
G=1-SSE/STD
其中，SSE,STD見上。

8.熵方差
考慮一個類別變量x和一個連續y的情況。熵方差可以定義爲：
E=1-SSE/STD
其中，SSE,STD見上。
關於基尼方差和熵方差，還不太明白。（參考《信用風險評分卡研究》）

9.信息值
衡量兩個名義變量間的相關性，其中一個是二元的。比如x是名義變量，y是取兩個值0和1。

IV值，可以用於評估某個自變量（feature）對因變量（label）的預測能力，IV值越大預測能力越強。

後續在建立評分卡時，會進一步介紹IV值。

發佈了32 篇原創文章 · 獲贊 79 · 訪問量 33萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

24小時熱門文章

最新文章

最新評論文章