非均衡樣本的簡單認識

原創

2019-10-26 08:13

非均衡樣本的定義

在分類問題中，每種類別的出現概率未必均衡。

比如：信用風險：正常用戶遠多於逾期/違約用戶。

非平衡樣本導致的問題：
降低少類樣本的靈敏性。

非均衡樣本的解決辦法：

1 過採樣
考慮對小類下的樣本（不足1爲甚至更少）進行過採樣，即添加部分樣本的副本；

過採樣的缺點是導致過擬合。

欠採樣
考慮對大類下的樣本（超過1萬、十萬甚至更多）進行欠採樣，即刪除部分樣本；

欠採樣導致的問題是信息丟失嚴重。

SMOTE算法(合成少數過採樣技術)
該算法的主要步驟如下：

採樣最鄰近算法，計算出每個少數類樣本的K個鄰近。
從K個近鄰中隨機挑選N個樣本進行隨機線性插值。
隨機：爲了防止過擬合
線性：簡單合成數據
構造新的少數類樣本
$New = x_i + rand(0,1) \cdot (y_j - x_i) , j = 1,2,...,N$
其中，x_i 爲少類樣本的一個觀測點，y_j爲k進行中的隨機抽取的樣本
將新樣本與原數據合成，產生新的訓練數據集。

示例：
如果現在有一個違約樣本 x (30,10000) ，分別表示(年齡，收入)，現在在k臨近中選取了一個樣本y(40,15000)，然後根據這兩個樣本進行新的樣本生成：

假設rand爲隨機數爲0.4 則 new_age = 30 + 0.4 * (40 - 30) = 34
new_income =10000 + 0.4(15000 - 10000) = 12000
從而合成的新樣本爲： (34,12000)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【機器學習】k近鄰算法（kNN）

一、寫在前面本系列是對之前機器學習筆記的一個總結，這裏只針對最基礎的經典機器學習算法，對其本身的要點進行筆記總結，具體到算法的詳細過程可以參見其他參考資料和書籍，這裏順便推薦一下Machine Learning in A

2020-07-03 10:57:41

神經網絡的數學基礎：張量運算

回顧上一篇神經網絡的數學基礎 :張量和梯度通過上一篇的內容，我們知道了張量表示神經網絡中的數據，那麼數據在網絡中流動必然要經過各種運算或者叫做處理，這一系列的處理就是達到最終結果的過程。可以形象把中間的變換稱爲神經網絡的“齒輪

2020-06-19 07:59:02

卷積神經網絡的簡單理解

文章目錄1、爲什麼需要卷積2、整體結構3、卷積層3.1　卷積運算3.2　Padding填充3.3　步幅3.4　3維數據的卷積運算3.5　結合方塊思考3.6　批處理4、池化層參考資料前面的神經網絡我們使用的都是全連接網絡，不管是感

2020-06-19 07:59:02

用計算圖理解和計算BP神經網絡的梯度

摘要計算圖應用非常廣，例如，內存計算框架Spark的有向無環圖(DAG)，Neo4J圖數據庫、深度學習中的神經網絡圖，以及TensorBoard中的可視化圖，都是計算圖的應用場景。本文所講的也是計算圖的一個應用場景：計算神經網絡

2020-06-19 06:46:56

深刻理解機器學習的: 目標函數，損失函數和代價函數

對於目標函數，損失函數和代價函數，重要的是理解。基本概念：在機器學習中，對於目標函數、損失函數、代價函數等不同書上有不同的定義。這裏取如下定義損失函數：計算的是一個樣本的誤差代價函數：是整個訓練集上所有樣本誤差的平均目標

2020-06-19 06:46:56

20個最佳人工智能和機器學習YouTube頻道

不是廣告，個人推薦，有興趣瞭解一下。無論您擁有計算機學習經驗，是否擁有計算機科學學位或僅僅是對AI的興趣。通過易於理解的演示和教程視頻，您很快就可以立即掌握人工智能，機器學習和計算機科學的基礎知識。 YouTube上的機器學習

2020-06-19 06:46:56

最快計算Mandelbrot的Python代碼

Python作爲動態語言，現在越來越流行，但是在使用中卻未必十全十美，其中運行的性能問題，便是其中之一。當程序中有很多for循環，並且迭代次數很多的情況下，性能問題尤其突出。當然，解決辦法也有很多，比如使用Cython便是一個好的

2020-06-19 06:46:56

np.tensordot 的理解和使用

Numpy是使用最廣的科學計算庫，對於多維數組的操作更是在實踐中用的最多，而且也是比較困惑的地方，但是用好了事半功倍，今天講一下numpy的 tensordot 的使用，這個函數在卷積神經網絡的卷積中用到。數組的基本屬性數組基

2020-06-19 06:46:56

2019 最全神經網絡結構圖畫圖工具介紹，沒有之一！

最近看到有人提問，關於神經網絡結構圖的問題，決定給大家做一個比較全面詳細的介紹，希望對大家在這方面的空缺和疑惑有所幫助。神經網絡結構圖繪製工具列表名稱描述推薦指數 Python+Graphviz graphv

2020-06-19 06:46:56

激活函數的理解和實現-最新整理

回顧上一篇神經網絡的數學基礎：張量運算引言學習神經網絡的時候我們總是聽到激活函數這個詞，而且很多資料都會提到常用的激活函數，比如Sigmoid函數、Tanh函數、ReLU函數。我們就來詳細瞭解下激活函數方方面面的知識。本文的

2020-06-19 06:46:56

XGBoost WARNING: /workspace/src/objective/regression_obj.cu:152: reg:linear is now deprecated

遇到這個warning這的是看着煩，感謝前輩： https://github.com/dmlc/xgboost/issues/4599 加上這個參數： objective =‘reg:squarederror’ 即可

2020-06-16 11:03:05

神經網絡中權重共享的理解

所謂的權重共享就是說，輸入一張圖片，這張圖片的用一個filter進行卷積操作的時候，圖片中的每一個位置都被同一個filter進行卷積，所以權重是一樣的，也就是共享。這個是在一個卷積層操作的時候的權重共享，另一個卷積層是利用另一個f

2020-06-16 11:03:05

機器學習系列 05：Logistic 迴歸及 Python 實現

本內容將介紹機器學習中的 Logistic 迴歸及 Python 代碼實現，和 Softmax 迴歸。 Logistic 迴歸（logistic regression，也稱邏輯迴歸和對數機率迴歸）是一種經典的分類模型，

空杯的境界

2020-06-07 00:40:03

機器學習系列 06：決策樹 01

本內容將介紹用於分類的決策樹（decision tree），以及 ID3、C4.5 和 CART 算法。決策樹（decision tree）是一種基本的分類與迴歸方法。決策樹模型呈樹形結構，分爲分類樹、迴歸樹和模型樹，

空杯的境界

2020-06-07 00:40:02

機器學習系列 07：決策樹 02 - CART 算法

本內容將介紹決策樹中的 CART 算法以及 Python 代碼實現。其可用於分類和迴歸，具體實現包含分類樹、迴歸樹和模型樹。 CART（classification and regression Trees，分類迴歸樹）

空杯的境界

2020-06-07 00:40:02

24小時熱門文章

最新文章

最新評論文章