不平衡樣本對SVM的影響

原創

2020-04-23 16:47

樣本失衡會對SVM的影響
假設正類樣本遠多於負類

1、線性可分的情況

假設真實數據集如下：

由於負類樣本量太少，可能會出現下面這種情況

使得分隔超平面偏向負類。嚴格意義上，這種樣本不平衡不是因爲樣本數量的問題，而是因爲邊界點發生了變化

2、線性不可分的情況

源數據以及理想的超平面情況如下：

很可能由於負類樣本太少出現以下這種情況，超平面偏向負類

解決不平衡的方案：

【SVM對不平衡本身並不十分敏感】

【SVM的超平面只與支持向量有關，因此原離決策超平面的數據的多少並不重要】

1、過抽樣（隨機過抽樣）

2、欠抽樣（對多數類邊界樣本進行採樣）（既能代表多數類樣本分佈特徵, 又能對分類界面有一定影響的樣本特性欠取樣方法）

3、改進算法本身（代價敏感）

參考博客

1)、對正例和負例賦予不同的C值，例如正例遠少於負例，則正例的C值取得較大，這種方法的缺點是可能會偏離原始數據的概率分佈；

2)、對訓練集的數據進行預處理即對數量少的樣本以某種策略進行採樣，增加其數量或者減少數量多的樣本，典型的方法如：隨機插入法，缺點是可能出現

overfitting，較好的是：Synthetic Minority Over-sampling TEchnique(SMOTE)，其缺點是隻能應用在具體的特徵空間中，不適合處理那些無法用

特徵向量表示的問題，當然增加樣本也意味着訓練時間可能增加；

3)、基於核函數的不平衡數據處理。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.