解析深度學習閱讀筆記：不平衡樣本的處理

原創

2020-07-01 04:25

目錄

重新分配權重(Re-weighting)

引言

之前寫閱讀論文筆記BBN時，文中探討了不同的類別平衡機制的作用，想着可以總結一下相關的方法。於是有個本文，當然主要是參考魏秀參老師的文章。

數據重採樣(Re-sampling)

數據重採樣

面對數據不平衡，最簡單直接的方法就是數據採樣（包括下采樣和上採樣），促使其各個類別趨於均衡。
對於樣本較少的類別，可使用上採樣，複製該類圖像直至與樣本最多類的樣本數一致或者採用樣本擴充的方式。
對於樣本較多類別，可以採用下采樣，並不是隨機丟棄一部分圖像，這樣會降低數據的多樣性，影響泛化能力。
- 正確的下采樣方法爲:在批處理訓練時對每批隨機抽取的圖像嚴格控制其樣本較多類別的圖像數量。
- 舉個例子:以二分類爲例，原數據分佈情況下每次批處理訓練正負樣本平均數量比例爲5:1,如僅使用下采樣，可以在每次隨機挑選訓練楊奔時，每5個正例只取1個作爲該批訓練集的正例，負例選取仍按照原來準則，這樣就可以保證正負樣本比例相等。
注意：如果僅僅使用上採樣可能會引起模型的過擬合問題，保險方法上採樣+下采樣一起使用。

類別平衡採樣

着眼於類別，即類別平衡採樣。
策略：將樣本按類別分組，每個類別生成一個樣本列表。訓練過程種先隨機選擇1個或幾個類別，然後從各個類別所對應的樣本列表中隨機選擇樣本。這樣就可以保證每個類被參與訓練的機會均衡。
進一步地，海康威視在以上基礎上提出了類別重組 ^[1] 方法，簡化了步驟，具體讀者自行閱讀。

重新分配權重(Re-weighting)

增加小樣本錯分的懲罰代價，並將此直接體現在目標函數中，通過優化目標函數調整模型在小樣本上的注意力

基於代價敏感矩陣

基於代價敏感向量

代價敏感法中權重指定方式

按照樣本比例指定

按照混淆矩陣指定

總結

不平衡問題解決辦法的效果相對有限，最爲根本方法爲在大規模的數據上作相關訓練。
本文爲讀《解析深度學習–卷積神經網絡原理與視覺實踐》^[2]的相關筆記，所以幾乎都爲書中內容，侵刪。

參考資料

[1] Yang S. Several tips and tricks for ImageNet CNN training[M]. Technical Report. 2016.
[2] 解析深度學習–卷積神經網絡原理與視覺實踐. 魏秀參等.

數據增強常用包彙總

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

舌尖上的AI：人工智能技術正在被“端上”餐桌

來源 | 人民數字FINTECH 責編 | 晉兆雨頭圖 | CSDN 下載自視覺中國 #人工智能技術正在被“端上”餐桌四方食事，不過一碗人間煙火。人工智能作爲一門新的技術科學，正在被人間煙火氣“端”上餐桌。人工智能“洗手”

2024-05-13 21:17:25

攻擊者正在利用AI，對保險公司發起大規模欺詐

保險欺詐一直是保險行業面臨的重要挑戰之一，尤其隨着技術的進步，欺詐者也在不斷更新其手段，利用AI技術，包括生成式模型、機器學習和數據分析工具等欺騙保險公司，而AI技術的應用正成爲他們的新工具，使其犯罪行爲更加隱蔽和複雜，挑戰保險行業的防欺詐

2024-05-10 00:55:17

AI繪圖新選擇：Fooocus工具發佈，小顯存助力大模型運行

隨着人工智能技術的飛速發展，AI繪圖工具已經成爲了衆多創作者們的得力助手。它們能夠基於深度學習算法，快速生成高質量的圖像，爲設計、藝術等領域注入了新的活力。然而，傳統的AI繪圖工具往往對硬件要求較高，使得許多擁有較低配置設備的用戶望而卻步。

2024-05-07 23:30:10

GPU 硬件指標說明

流處理器：也叫渲染管、着色器。畫面都是由一個又一個像素點組成的，而流處理器就負責這些像素點的渲染工作； RT核心：光追核心，用作於光線追蹤效果； CUDA 核心和Tensor 核心：CUDA Core和Tensor Core，爲G

2024-05-13 22:35:43

AIGC在京東廣告創意的技術應用

一、前言電商廣告圖片不僅能夠抓住消費者的眼球，還可以傳遞品牌核心價值和故事，建立起與消費者之間的情感聯繫。然而現有的廣告圖片大多依賴人工製作，存在效率和成本的限制。儘管最近AIGC技術取得了卓越的進展，但其在廣告圖片的應

京東雲開發者

2024-05-08 23:24:18

GLM國產大模型訓練加速：高效性能與成本優化的實踐

隨着人工智能技術的不斷進步，大模型的訓練成爲了推動深度學習領域發展的重要力量。然而，傳統的訓練方式往往面臨着性能瓶頸和高昂的成本問題，這使得許多研究者和開發者望而卻步。爲了解決這一難題，我們探索了使用OneFlow框架對GLM國產大模型進行

2024-05-07 23:30:09

Kimi大模型，加入微信了

哈哈哈，喜大普奔！前段時間發現微信公衆號被開通留言，最近又發現 Kimi大模型現在可以接入微信公衆號了！這意味着我們能夠更加便捷地享受到Kimi智能助手的服務，還代表着我們有了一個免費且好用且穩定且無需翻牆的 AI助

2024-05-13 23:51:55

內嵌專業接口的RISC-V架構MCU，誰家有？

前一陣，蘋果推出了M1處理器，相比關注具體指標，業內其實更關心M1推出後會引領產業往哪個方向發展，不少人的結論是RISC-V會成爲未來芯片發展的熱點，因爲RISC-V有很多巧妙的方法可以提高性能。計算機界泰斗David Patterso

2024-05-13 23:26:39

免費報名|Zabbix受邀出席上海開源技術沙龍，探討開源軟件賦能新質生產力

大家好！5月25日我們將舉辦今年第三期上海開源技術沙龍活動。本次的主題是——開源軟件賦能新質生產力。在上海開源信息技術協會 (SHOpen) 的指導下，隨着活動的持續開展，上海開源技術沙龍獲得了越來越多開發者的關注與

2024-05-13 22:34:43

我宣佈，這是我找到的史上AI最全論文體系！

在碎片化閱讀充斥眼球的時代，越來越少的人會去關注每篇論文背後的探索和思考。搞AI，不少人都進入一個誤區，那就是隻鑽研自己的代碼是否精進，而沒有注意提升自己的閱讀能力。實際上，一個專業的學術研究員或者AI研究員可能需要花費幾百個小

2024-05-13 21:33:50

LoRA微調語言大模型的實用技巧與實踐

隨着人工智能技術的不斷髮展，大型語言模型在各個領域的應用越來越廣泛。然而，大型語言模型的訓練成本高昂，且難以適應不同領域的具體需求。爲了解決這個問題，LoRA微調技術應運而生。本文將介紹LoRA微調語言大模型的實用技巧，幫助讀者更好地應用這

2024-05-09 12:48:45

海外市場成 ISV 新掘金地？生成式 AI 如何加速業務創新實踐？Zilliz 有話說

期望瞭解 Zilliz 最新動態？想要與 Zilliz 線下探討 AI 時代向量數據庫的全球化佈局思考及典型實踐？機會來啦！5 月 10 日，Zilliz 將閃現亞馬遜雲科技的兩場活動現場（蘇州、西安），與大家共話行業發展與未來，歡迎報名

2024-05-08 21:21:54

程序員不存在了……嗎？

近期，在談及人工智能的發展速度時，馬斯克預計，按照當前的技術進步速度，到2030年人工智能的智力可能超越人類，這項技術甚至有可能終結人類。那麼，人工智能的強大究竟對人類將帶來更多機遇還是危機呢？今天，我們特邀了《深入理解 FFmpeg

2024-05-08 11:12:06

京東科技數字化營銷能力的演進與最佳實踐| 京東雲技術團隊

1.導讀在當今數字化時代，全球互聯網用戶已超過50億人，中國的互聯網用戶數量更是達到10.5億，這爲企業提供了巨大的市場機遇和挑戰。根據市場研究公司的最新報告，全球數字營銷費用支出預計將在未來五年內進一步大幅增加，這表明數字化營銷已成爲

2024-05-07 23:17:11

電子合同一站式解決方案 | 京東雲技術團隊

一：平臺定位和優勢（爲什麼建） 1.1、平臺定位由京東科技業務中臺主導發起，聯合法律部、安全部共建，旨在爲業務提供電子合同管理的中臺化能力，當前已形成一套成熟的“全線上、全生命週期電子合同管理系統”，可提供包括合同模板創建、模板預覽、

2024-05-06 23:16:37

24小時熱門文章

最新文章

最新評論文章