不平衡樣本處理
啥也不說了,直接上圖!!!
需要注意:
過採樣:重複正比例數據,實際上沒有爲模型引入更多數據,過分強調正比例數據,會放大正比例噪音對模型的影響。
欠採樣:丟棄大量數據,和過採樣一樣會存在過擬合的問題
措施:
- 可以選擇調整閾值,使得模型對於較少的類別更爲敏感
- 選擇合適的評估標準,比如ROC或者F1,而不是準確度(accuracy)
總結:
過採樣它不可避免的帶來更大的運算開銷,其次當數據中噪音過大時,結果反而可能會更差因爲噪音也被重複使用。
使用過採樣(或SMOTE)+強正則模型(如XGBoost)可能比較適合不平衡的數據。拿到一個新的數據時,可以不妨直接先試試這個方法,作爲基準(Baseline)。
一個比較成熟的算法就是用SMOTE過採樣,再利用Tomek’s link再控制新的樣本空間。
參考博客:https://blog.csdn.net/qq_27802435/article/details/81201357
https://blog.csdn.net/Dawei_01/article/details/80846371
https://www.zhihu.com/question/269698662
官方文檔:https://imbalanced-learn.org
這篇存了好久都忘記發了。。。 今天一起補上吧