非均衡樣本的簡單認識

非均衡樣本的定義

在分類問題中,每種類別的出現概率未必均衡。

比如 : 信用風險:正常用戶遠多於逾期/違約用戶。

非平衡樣本導致的問題:
降低少類樣本的靈敏性。

非均衡樣本的解決辦法:

  • 1 過採樣
    考慮對小類下的樣本(不足1爲甚至更少)進行過採樣,即添加部分樣本的副本;

過採樣的缺點是導致過擬合。

  • 欠採樣
    考慮對大類下的樣本(超過1萬、十萬甚至更多)進行欠採樣,即刪除部分樣本;

欠採樣導致的問題是信息丟失嚴重。

  • SMOTE算法(合成少數過採樣技術)
    該算法的主要步驟如下:
  • 採樣最鄰近算法,計算出每個少數類樣本的K個鄰近。
  • 從K個近鄰中隨機挑選N個樣本進行隨機線性插值。
    隨機 :爲了防止過擬合
    線性:簡單合成數據
  • 構造新的少數類樣本
    New=xi+rand(0,1)(yjxi),j=1,2,...,NNew = x_i + rand(0,1) \cdot (y_j - x_i) , j = 1,2,...,N
    其中,x_i 爲少類樣本的一個觀測點,y_j爲k進行中的隨機抽取的樣本
  • 將新樣本與原數據合成,產生新的訓練數據集。

示例 :
如果現在有一個違約樣本 x (30,10000) ,分別表示(年齡,收入),現在在k臨近中選取了一個樣本y(40,15000),然後根據這兩個樣本進行新的樣本生成:

假設rand爲隨機數爲0.4 則 new_age = 30 + 0.4 * (40 - 30) = 34
new_income =10000 + 0.4(15000 - 10000) = 12000
從而合成的新樣本爲 : (34,12000)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章