信用風險評估評分卡之極端值

原創

2020-02-20 16:00

極端值的產生：
1.數據生成的過程來源於某些未知的函數形式的分佈，很難確定哪些觀測值是極端值；
2.在獲取原始業務數據過程中，產生差錯。
極端值的識別：
1.爲每個變量（feature）設定一個正常的取值範圍，超過一定範圍視爲極端值。如連續feature,這些範圍設定爲均值+/-3倍標準差。該方法只考慮單個變量。
2.用已知數據擬合模型，嚴重偏離擬合模型的樣本/觀測值視爲極端值。
3.用聚類算法將數據分爲若干子集，只含有很小數量的簇（理想情況只包含一個樣本/觀測值），視爲極端值。
4.用決策樹發現包含少量觀測值的持續結點。
總結：常用多種方法相結合，比如採用基於取值範圍的方法進行單變量分析識別極端值，然後用聚類方法在多元特徵上識別。
極端值的處理
大部分情況，刪除極端值，或者將其重置爲總體中看起來更爲典型的某個值。然而，當被認爲的極端值的數量很大，比如超過總體10%,那麼需要將總體分爲兩個獨立的數據集，分別開發獨立的評分卡。
極端值很少時可以刪除，另外可以用中位數，均值等替換。

發佈了32 篇原創文章 · 獲贊 79 · 訪問量 33萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

24小時熱門文章

最新文章

最新評論文章