數據準備--降低基數,連續變量分段

數據準備非常重要:
1.從不同的渠道收集數據;
2.清理數據中意外錯誤或被認爲是極端值的取值;
3.生成衍生的變量(feature)。

在數據處理過程,需要進行的操作:

  • 當名義變量的取值大於12個,考慮降低基數:

1>將相同含義的變量合併;
2>出現頻率下的類別被合併爲一個新的類別,並給予一個合理的標識,如other。
3>合併變量的類別使得某些預測力指標最大化。
下面是採用決策樹的方法,對於有12個類別的某個feature,首先把所有的看成一個分組,然後找出最優的二元分割方法,具體見《信用風險評分卡研究》的P92。
這裏寫圖片描述

還有其他的一些降低基數的指標。

這裏寫圖片描述

  • 連續變量的分段:

連續變量必須分段,爲了方便構建打分卡,兩種方法:等距分段和最優分段。
等距分段是指分段的區間是一樣的,比如客戶年齡以10歲爲間隔分段。
最優分段是使得該變量的預測能力指標得到優化,相當於名義變量降低基數的最優分羣。
如下是採用決策樹的方法,先規定最小分段的規模,然後進行初始的等距分段(取值順序保持原始變量的順序),然後利用決策樹二分法,進行分組,知道組數達到設定的分組數量。
這裏寫圖片描述

  • 抽樣和權重計算
    數據庫的數據量大,採取抽的方法獲取數據,用戶信用評分卡的開發。
    有3中常見的抽樣方法:
    1>隨機抽樣;
    2>均衡(對稱)抽樣;
    3>分層抽樣。
    1.隨機抽樣
    從總體中隨機抽取兩個不相交的樣本集,一個用戶訓練,一個用戶驗證。
    2.均衡抽樣
    從總體中抽樣的兩個樣本集,每個樣本集中的違約比率與初始總體不同。
發佈了32 篇原創文章 · 獲贊 79 · 訪問量 33萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章