非均衡樣本的定義
在分類問題中,每種類別的出現概率未必均衡。
比如 : 信用風險:正常用戶遠多於逾期/違約用戶。
非平衡樣本導致的問題:
降低少類樣本的靈敏性。
非均衡樣本的解決辦法:
- 1 過採樣
考慮對小類下的樣本(不足1爲甚至更少)進行過採樣,即添加部分樣本的副本;
過採樣的缺點是導致過擬合。
- 欠採樣
考慮對大類下的樣本(超過1萬、十萬甚至更多)進行欠採樣,即刪除部分樣本;
欠採樣導致的問題是信息丟失嚴重。
- SMOTE算法(合成少數過採樣技術)
該算法的主要步驟如下:
- 採樣最鄰近算法,計算出每個少數類樣本的K個鄰近。
- 從K個近鄰中隨機挑選N個樣本進行隨機線性插值。
隨機 :爲了防止過擬合
線性:簡單合成數據
- 構造新的少數類樣本
其中,x_i 爲少類樣本的一個觀測點,y_j爲k進行中的隨機抽取的樣本 - 將新樣本與原數據合成,產生新的訓練數據集。
示例 :
如果現在有一個違約樣本 x (30,10000) ,分別表示(年齡,收入),現在在k臨近中選取了一個樣本y(40,15000),然後根據這兩個樣本進行新的樣本生成:
假設rand爲隨機數爲0.4 則 new_age = 30 + 0.4 * (40 - 30) = 34
new_income =10000 + 0.4(15000 - 10000) = 12000
從而合成的新樣本爲 : (34,12000)