目錄
引言
數據重採樣(Re-sampling)
數據重採樣
- 面對數據不平衡,最簡單直接的方法就是數據採樣(包括下采樣和上採樣),促使其各個類別趨於均衡。
- 對於樣本較少的類別,可使用上採樣,複製該類圖像直至與樣本最多類的樣本數一致或者採用樣本擴充的方式。
- 對於樣本較多類別,可以採用下采樣,並不是隨機丟棄一部分圖像,這樣會降低數據的多樣性,影響泛化能力。
- 正確的下采樣方法爲:在批處理訓練時對每批隨機抽取的圖像嚴格控制其樣本較多類別的圖像數量。
- 舉個例子:以二分類爲例,原數據分佈情況下每次批處理訓練正負樣本平均數量比例爲5:1,如僅使用下采樣,可以在每次隨機挑選訓練楊奔時,每5個正例只取1個作爲該批訓練集的正例,負例選取仍按照原來準則,這樣就可以保證正負樣本比例相等。
- 注意:如果僅僅使用上採樣可能會引起模型的過擬合問題,保險方法上採樣+下采樣一起使用。
類別平衡採樣
- 着眼於類別,即類別平衡採樣。
- 策略 :將樣本按類別分組,每個類別生成一個樣本列表。訓練過程種先隨機選擇1個或幾個類別,然後從各個類別所對應的樣本列表中隨機選擇樣本。這樣就可以保證每個類被參與訓練的機會均衡。
- 進一步地,海康威視在以上基礎上提出了類別重組 [1] 方法,簡化了步驟,具體讀者自行閱讀。
重新分配權重(Re-weighting)
- 增加小樣本錯分的懲罰代價,並將此直接體現在目標函數中,通過優化目標函數調整模型在小樣本上的注意力
基於代價敏感矩陣
基於代價敏感向量
代價敏感法中權重指定方式
按照樣本比例指定
按照混淆矩陣指定
總結
- 不平衡問題解決辦法的效果相對有限,最爲根本方法爲在大規模的數據上作相關訓練。
- 本文爲讀《解析深度學習–卷積神經網絡原理與視覺實踐》[2]的相關筆記,所以幾乎都爲書中內容,侵刪。
參考資料
[1] Yang S. Several tips and tricks for ImageNet CNN training[M]. Technical Report. 2016.
[2] 解析深度學習–卷積神經網絡原理與視覺實踐. 魏秀參等.