信用風險評估之 預測力指標(篩選特徵)

在建模時,被用來預測的變量(即feature)相互間不能有很強的相關性,最好完全不存在相關性。
評判變量間的預測力指標有皮爾森相關係數,斯皮爾曼相關係數,皮爾森卡方統計量,概率比,信息值等。

1.皮爾森相關係數pearson
連續變量x,y(兩列feature), 皮爾森相關係數ρ:

這裏寫圖片描述

取值區間[-1,1]。
0表示無相關性即相互獨立,越接近於0,相關性越小;
-1爲負的強相關性;
+1爲正的強相關性。

去均值化的ρ即爲餘弦夾角公式:
這裏寫圖片描述
小結:
1》皮爾森相關係數會受數據錯誤或極端值的影響而不穩定。
2》皮爾森相關係數計算的是每個觀測值與均值間的差值,適合連續變量間的相關性計算,就不適合順序/名義變量間的相關性計算。
3》越接近0,相關性越小。

2.斯皮爾曼相關係數spearman
斯皮爾曼相關係數的計算採用取值的等級,而不是取值本身。當取值按升序排列時,取值的等級就是該取值的順序。如12,5,8的等級爲3,1,2。計算公式類似皮爾森相關係數:
這裏寫圖片描述
R,S是兩個變量的取值對應的等級。
小結:
1》斯皮爾曼相關係數適用於順序變量間的相關性計算。
2》斯皮爾曼相關係數對於數據錯誤和極端值不敏感。
3》越接近於0,相關性越小。

3.皮爾森卡方統計量
皮爾森卡方統計量用X²表示,衡量兩個名義變量間的相關性。
下面以一個例子來說明卡方統計量,如下爲住房與就業的人數統計表。
這裏寫圖片描述
第i行第j列的預期頻數爲:
這裏寫圖片描述
也即表格中小括號中的計算數據。

卡方統計量的定義如下:
這裏寫圖片描述
X²服從自由度爲df=(r-1)(c-1)的卡方分佈。r,c是表中數據的行與列。

其中,卡方分佈即伽馬分佈函數如下
這裏寫圖片描述

獨立性假設的概率:
這裏寫圖片描述
當概率值越小,標明兩個變量間獨立的概率越小,即兩變量間有很強的相關性。

上表數據對應的卡方統計量計算得:
這裏寫圖片描述

這裏寫圖片描述
說明就業和居住狀況之間存在很強的相關性。

4.似然比檢驗統計量
兩個變量是名義變量
這裏寫圖片描述

觀察樣本中計算的真實頻率分佈與已知概率總體分佈的差異:
這裏寫圖片描述

兩個名義變量x,y的似然比統計量定義爲:
這裏寫圖片描述
爲何4.22公式是服從卡方分佈的???暫時不理解,先記下來。
那麼,通過似然比檢驗統計量可以得出兩個變量間的相關性,具體判斷類似卡方統計量。

5.概率比
兩個變量是名義變量。
這裏寫圖片描述
如上表,
當變量x取x1時的違約比率odds=n11/n12;
當變量x取x2時的違約比率odds=n21/n22;
概率比的定義:
這裏寫圖片描述
若概率比爲1或趨近1,那麼兩個變量之間不存在相關性。
這裏寫圖片描述

概率比在logistic迴歸建模製定打分卡起着關鍵作用。

6.F檢驗
F檢驗衡量一個連續變量與一個名義變量之間的關聯性。誰是因變量無所謂。

先舉例引入兩個參數MSTR,MSE,如下表:

這裏寫圖片描述

這裏寫圖片描述

這裏寫圖片描述

這裏寫圖片描述

這裏寫圖片描述

這裏寫圖片描述

p表示無關聯性的概率。p小表示,關聯性強。

7.基尼方差
基尼方差衡量三種情況的變量間的相關性:
1>一個連續變量,一個名義或順序變量;
2>兩個名義變量;
3>兩個順序變量。
考慮一個連續變量x和一個名義變量y的情況。基尼方差可以定義爲:
G=1-SSE/STD
其中,SSE,STD見上。

8.熵方差
考慮一個類別變量x和一個連續y的情況。熵方差可以定義爲:
E=1-SSE/STD
其中,SSE,STD見上。
關於基尼方差和熵方差,還不太明白。(參考《信用風險評分卡研究》)

9.信息值
衡量兩個名義變量間的相關性,其中一個是二元的。比如x是名義變量,y是取兩個值0和1。
這裏寫圖片描述
IV值,可以用於評估某個自變量(feature)對因變量(label)的預測能力,IV值越大預測能力越強。
這裏寫圖片描述

後續在建立評分卡時,會進一步介紹IV值。

發佈了32 篇原創文章 · 獲贊 79 · 訪問量 33萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章