信用風險評估評分卡 之 極端值

  • 極端值的產生:
    1.數據生成的過程來源於某些未知的函數形式的分佈,很難確定哪些觀測值是極端值;
    2.在獲取原始業務數據過程中,產生差錯。

  • 極端值的識別:
    1.爲每個變量(feature)設定一個正常的取值範圍,超過一定範圍視爲極端值。如連續feature,這些範圍設定爲均值+/-3倍標準差。該方法只考慮單個變量。
    2.用已知數據擬合模型,嚴重偏離擬合模型的樣本/觀測值視爲極端值。
    3.用聚類算法將數據分爲若干子集,只含有很小數量的簇(理想情況只包含一個樣本/觀測值),視爲極端值。
    4.用決策樹發現包含少量觀測值的持續結點。
    總結:常用多種方法相結合,比如採用基於取值範圍的方法進行單變量分析識別極端值,然後用聚類方法在多元特徵上識別。

  • 極端值的處理
    大部分情況,刪除極端值,或者將其重置爲總體中看起來更爲典型的某個值。然而,當被認爲的極端值的數量很大,比如超過總體10%,那麼需要將總體分爲兩個獨立的數據集,分別開發獨立的評分卡
    極端值很少時可以刪除,另外可以用中位數,均值等替換。這裏寫圖片描述
發佈了32 篇原創文章 · 獲贊 79 · 訪問量 33萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章