數據準備--降低基數，連續變量分段

數據準備非常重要：
1.從不同的渠道收集數據；
2.清理數據中意外錯誤或被認爲是極端值的取值；
3.生成衍生的變量（feature）。

在數據處理過程，需要進行的操作：

當名義變量的取值大於12個，考慮降低基數：

1>將相同含義的變量合併；
2>出現頻率下的類別被合併爲一個新的類別，並給予一個合理的標識，如other。
3>合併變量的類別使得某些預測力指標最大化。
下面是採用決策樹的方法，對於有12個類別的某個feature，首先把所有的看成一個分組，然後找出最優的二元分割方法，具體見《信用風險評分卡研究》的P92。

還有其他的一些降低基數的指標。

連續變量的分段：

連續變量必須分段，爲了方便構建打分卡，兩種方法：等距分段和最優分段。
等距分段是指分段的區間是一樣的，比如客戶年齡以10歲爲間隔分段。
最優分段是使得該變量的預測能力指標得到優化，相當於名義變量降低基數的最優分羣。
如下是採用決策樹的方法，先規定最小分段的規模，然後進行初始的等距分段（取值順序保持原始變量的順序），然後利用決策樹二分法，進行分組，知道組數達到設定的分組數量。

抽樣和權重計算
數據庫的數據量大，採取抽的方法獲取數據，用戶信用評分卡的開發。
有3中常見的抽樣方法：
1>隨機抽樣；
2>均衡（對稱）抽樣；
3>分層抽樣。
1.隨機抽樣
從總體中隨機抽取兩個不相交的樣本集，一個用戶訓練，一個用戶驗證。
2.均衡抽樣
從總體中抽樣的兩個樣本集，每個樣本集中的違約比率與初始總體不同。