不平衡樣本處理

不平衡樣本處理

啥也不說了,直接上圖!!!
在這裏插入圖片描述

需要注意:

過採樣:重複正比例數據,實際上沒有爲模型引入更多數據,過分強調正比例數據,會放大正比例噪音對模型的影響。

欠採樣:丟棄大量數據,和過採樣一樣會存在過擬合的問題

措施:

  1. 可以選擇調整閾值,使得模型對於較少的類別更爲敏感
  2. 選擇合適的評估標準,比如ROC或者F1,而不是準確度(accuracy)

總結:

過採樣它不可避免的帶來更大的運算開銷,其次當數據中噪音過大時,結果反而可能會更差因爲噪音也被重複使用。

使用過採樣(或SMOTE)+強正則模型(如XGBoost)可能比較適合不平衡的數據。拿到一個新的數據時,可以不妨直接先試試這個方法,作爲基準(Baseline)。
一個比較成熟的算法就是用SMOTE過採樣,再利用Tomek’s link再控制新的樣本空間。

參考博客:https://blog.csdn.net/qq_27802435/article/details/81201357
https://blog.csdn.net/Dawei_01/article/details/80846371
https://www.zhihu.com/question/269698662
官方文檔:https://imbalanced-learn.org

這篇存了好久都忘記發了。。。 今天一起補上吧

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章