極端值的產生:
1.數據生成的過程來源於某些未知的函數形式的分佈,很難確定哪些觀測值是極端值;
2.在獲取原始業務數據過程中,產生差錯。極端值的識別:
1.爲每個變量(feature)設定一個正常的取值範圍,超過一定範圍視爲極端值。如連續feature,這些範圍設定爲均值+/-3倍標準差。該方法只考慮單個變量。
2.用已知數據擬合模型,嚴重偏離擬合模型的樣本/觀測值視爲極端值。
3.用聚類算法將數據分爲若干子集,只含有很小數量的簇(理想情況只包含一個樣本/觀測值),視爲極端值。
4.用決策樹發現包含少量觀測值的持續結點。
總結:常用多種方法相結合,比如採用基於取值範圍的方法進行單變量分析識別極端值,然後用聚類方法在多元特徵上識別。- 極端值的處理
大部分情況,刪除極端值,或者將其重置爲總體中看起來更爲典型的某個值。然而,當被認爲的極端值的數量很大,比如超過總體10%,那麼需要將總體分爲兩個獨立的數據集,分別開發獨立的評分卡。
極端值很少時可以刪除,另外可以用中位數,均值等替換。
信用風險評估評分卡 之 極端值
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.