如何處理樣本不平衡問題

原創

2020-06-10 16:50

項目中出現了二分類數據不平衡問題，研究總結下對於類別不平橫問題的處理經驗：

1：爲什麼類別不平衡會影響模型的輸出：

許多模型的輸出類別是基於閾值的，例如邏輯迴歸中小於0.5的爲反例，大於則爲正例。在數據不平衡時，默認的閾值會導致模型輸出傾向與類別數據多的類別。

因此可以在實際應用中，解決辦法包括：

1)調整分類閾值，使得更傾向與類別少的數據。

2）選擇合適的評估標準，比如ROC或者F1，而不是準確度（accuracy）

3）過採樣法（sampling）：來處理不平橫的問題。分爲欠採樣(undersampling)和過採樣(oversampling)兩種，

過採樣：重複正比例數據，實際上沒有爲模型引入更多數據，過分強調正比例數據，會放大正比例噪音對模型的影響。

欠採樣：丟棄大量數據，和過採樣一樣會存在過擬合的問題。

由於隨機過採樣採取簡單複製樣本的策略來增加少數類樣本，這樣容易產生模型過擬合的問題，即使得模型學習到的信息過於特別(Specific)而不夠泛化(General)

4）數據合成：SMOTE（Synthetic Minority Oversampling Technique）即合成少數類過採樣技術，它是基於隨機過採樣算法的一種改進方案，，SMOTE算法的基本思想是對少數類樣本進行分析並根據少數類樣本人工合成新樣本添加到數據集中。
5）代價敏感，也就是加權重的思想(class_weight)

經驗：

參考

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

優化算法之模擬退火算法

clear all;clc;close all %模擬退火算法求解旅行商問題 %{ 日期： 20190912_ZD %} t0 = clock;%計時 Inter = 1;%迭代次數初始化 a = 0.99;%溫度衰減係數 Ts = 1

等等登登-Ande

2020-07-03 11:23:42

論文研讀-基於變量分類的動態多目標優化算法

論文研讀-基於變量分類的動態多目標優化算法 A Dynamic Multiobjective Evolutionary Algorithm Based on Decision Variable Classification 覺得有

武科大许志伟

2020-07-05 14:19:11

深度學習系列（七）優化算法（梯度下降、動量法、AdaGrad算法、RMSProp算法、AdaDelta算法、Adam算法） 2020.6.24

前言在訓練模型時，會使⽤優化算法不斷迭代模型參數以降低模型損失函數的值本節詳細學習常用的優化算法梯度下降動量法 AdaGrad算法 RMSProp算法 AdaDelta算法 Adam算法 1、優化算法的挑戰優化算法的

思源湖的鱼

2020-07-03 22:46:14

優化算法之粒子羣算法

今天爲大家分享啓發式優化算法的第二種算法——粒子羣算法（又稱鳥羣算法），粒子羣算法是依據鳥羣在覓食過程中信息在在個體和集體中傳遞的原理進行優化的，具體原理這裏同樣不進行詳細介紹，大家可以參考其他博客，這裏直接貼出相關程序： functi

等等登登-Ande

2020-07-03 11:23:52

優化算法之進化策略

clear all;clc;close all; %進化策略解決旅行商問題 %{ 日期： 20190912_ZD 遺傳算法強調染色體的操作，進化策略強調個體級的行爲變化，而進化規劃則強強調種羣級別上的行爲變化，現在學術界上將GA，ES

等等登登-Ande

2020-07-03 11:23:52

優化算法之蟻羣算法

今天爲大家講解第三種啓發式優化算法——蟻羣算法。蟻羣算法是根據螞蟻覓食的行爲得到的一種優化算法，螞蟻在覓食的過程中會在行進的道路上留下信息素，信息素越濃，表示該條路徑到食物的距離越短，通過這種方式螞蟻可以快速找到大量的食物，下面給出通過蟻

等等登登-Ande

2020-07-03 11:23:42

WFG系列問題-多目標優化測試問題

直接從微信公衆號搬運的～～～文章主題：WFG系列測試問題的定義，特徵，真實PF，使用方法適用人羣：正在學習優化算法的同學推薦閱讀時間：2mins 1. ZDT簡介在學習多目標優化的過程中，WFG測試問題常常出現，但他的定義形式和代

2020-06-29 10:38:53

線性降維：主成分分析PCA原理分析與仿真驗證

鶯嘴啄花紅溜，燕尾點波綠皺。指冷玉笙寒，吹徹小梅春透。依舊，依舊，人與綠楊俱瘦。 ——《如夢令·春景》秦觀 1、背景隨着信息技術的發展，數據量呈現爆照式增長，高維海量數據給傳統的數據處理方法帶來了嚴峻的挑戰，因此

2020-06-25 12:06:52

優化算法入門學習筆記（一）優化算法基本概念

一、優化的過程一個典型的工程設計優化過程如下圖所示，可以簡述爲：問題說明 -> 初始設計 -> 評估性能 -> 改進設計 -> 最終模型 The role of the designer is to provide a proble

2020-06-23 10:54:25

粒子羣優化算法（2）離散粒子羣算法

在上一篇博客粒子羣優化算法（1）中介紹了基本的粒子羣算法，基本粒子羣算法是基於連續空間（區間）進行搜索，然而在一些實際的工程應用中，我們的待求解的變量可能並不是歷需的，而實一種離散型的變量。這就需要對基本的粒子羣算法做出一些

途径北海道

2020-06-23 09:03:18

最優化理論-線搜法(Line Search Methods)

分類準確的線搜法：迭代次數確定。如二分法，插值法，黃金分割法，etc. 非準確的線搜法：在一階優化中用得較多，用於確定學習率（步長）。二分法如下圖，反覆交替確定上下界，終止條件是最終經過kkk次迭代後的上下界之間的距離

2020-06-22 11:56:03

理解ADMM, ALF和Split Bregman

理解ADMM, ALM和Split Bergman引言Alternating Direction Method of MultipliersAugmented Lagrangian Multipliers小結Splitt Breg

2020-06-22 11:56:03

最優化理論-2-梯度下降法

梯度法分類上升與下降方向大家應該都聽過最陡梯度下降法。首先，“陡”與方向有關，既然是最陡，就存在不那麼“陡”的方向。在介紹最陡梯度下降法之前，先了解一下下降方向。這個時候高中學的地理知識可發揮用場了，“等高線”可以刻畫一座山

2020-06-22 11:56:03

最優化理論3-牛頓法

回顧在講解牛頓法之前我們先回顧一下最速梯度下降法，泰勒展開與Hessian矩陣之間的關係。泰勒展開對於一元函數f(x)f(x)f(x)，在xxx處的泰勒展開爲： f(x+σ)=f(x)+f′(x)σ+12f′′(x)σ2+.

2020-06-22 11:56:03

優化算法 | 使用Knn算法進行數據預測流程分析

現在給你一組數據{ a 1 ,a 2, ⋯ ,a n}，比如這組數據表示的是第1個月到第n個月的電量使用情況現在讓你根據這組數據使用KNN算法去預測a n+1的值，也就是第n+1個月的電量使用情況由於任何一個月的用電量總是和前幾個月的用電

2020-06-22 00:30:13

24小時熱門文章

Spring Cloud 部署時如何使用 Kubernetes 作爲註冊中心和配置中心

最新文章

最新評論文章