樣本不均衡問題調研

● 每週一言

本真思考,不汲汲以求。

導語

在有監督模型訓練中,多多少少都會遇到樣本不均衡(Imbalanced Data)的問題,樣本不均衡將導致模型學習不到想學到的知識。

比如癌症預測模型,相比健康人而言,癌症病人的數量本來就很少,數據不平衡的問題很大,這樣就限制了模型的預測能力。那麼,如何解決樣本的不均衡問題?

樣本不均衡

簡而言之,樣本不均衡就是不同類別標籤的樣本之間的數量差別較大。由於多分類問題可以轉化爲多個二分類問題,因此本文重點討論二分類樣本不均衡問題的解決方法。

fig1

常見的樣本不均衡處理方法有三種:採樣、樣本合成和loss加權。

採樣 採樣是指對訓練樣本的取樣,又分爲上採樣(Oversampling)和下采樣(Undersampling)兩種。上採樣是從樣本較少的類別中多次重複取樣,下采樣則是從樣本較多的類別中部分取樣。本質上,兩種採樣方法的目的都是從數據集層面使各個類別的樣本比例趨於平衡。

樣本合成 樣本合成最常見的方法是SMOTE(Synthetic Minority Oversampling Technique)。樣本合成也是一種從數據集層面解決不均衡問題的方法。

fig2

loss加權 樣本不均衡直接導致的結果是在計算loss的時候,樣本較多的類別由於參與計算loss的貢獻較多,導致預測能力失準。因此我們可以換一個角度,增加樣本較少類別數據loss計算的權重。這個方法的難點在於需要手動設置合理的權重。

調研近幾年關於樣本不均衡問題的文獻,推薦一篇發表於今年一月份的survey:Handling Imbalanced Data: A Survey,這篇paper從四個方面總結了最近幾年比較新的imbalanced Data應對辦法,下面作一下簡單介紹。

fig3

1、Data-Level Approaches,數據層面的方法:
[Majority weighted minority oversampling technique],多數樣本類加權的過採樣方法。(http://www.cs.bham.ac.uk/~xin/papers/tkde2012_IslamYao.pdf)
Neighbourhood-balanced bagging
Radial Basis Function Networks
Inverse random undersampling technique

2、Algorithm-Level Approaches,算法層面的方法,講了一些基於SVM和cluster的處理方法。

3、Ensemble and Hybrid Methods,融合方法:
bagging-based ensemble method,這個方法大概意思是把不均衡的二分類數據集拆分成多個均衡的二分類數據集,然後訓練多個分類器,最後通過最大距離選擇最優分類器。
Hybrid method (MBP+GGE),處理多分類樣本不均衡的問題。

fig4

4、Other Different Techniques,主要提到了一些feature selection的方法。
density-based feature selection

對Imbalanced Data感興趣的朋友可以自行查閱上述涉及的文獻。

另外,生成對抗網絡(Generative Adversarial Networks)自2014年問世以來,已經運用到了解決數據不均衡的問題上。以下兩篇文獻對GAN進行了改進(G生成模型將類標籤信息納入考慮),用以解決數據不均衡問題,感興趣的讀者可自行下載。
Using generative adversarial networks for improving classification effectiveness in credit card fraud detection
A Deep Learning Based Method for Handling Imbalanced Problem in Network Traffic Classification

以上便是樣本不均衡問題的講解,敬請期待下節內容。

結語

感謝各位的耐心閱讀,後續文章於每週日奉上,敬請期待。歡迎大家關注小鬥公衆號 對半獨白

face

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章