解析深度学习阅读笔记：不平衡样本的处理

原創

2020-07-01 04:25

面对数据不平衡，最简单直接的方法就是数据采样（包括下采样和上采样），促使其各个类别趋于均衡。
对于样本较少的类别，可使用上采样，复制该类图像直至与样本最多类的样本数一致或者采用样本扩充的方式。
对于样本较多类别，可以采用下采样，并不是随机丢弃一部分图像，这样会降低数据的多样性，影响泛化能力。
- 正确的下采样方法为:在批处理训练时对每批随机抽取的图像严格控制其样本较多类别的图像数量。
- 举个例子:以二分类为例，原数据分布情况下每次批处理训练正负样本平均数量比例为5:1,如仅使用下采样，可以在每次随机挑选训练杨奔时，每5个正例只取1个作为该批训练集的正例，负例选取仍按照原来准则，这样就可以保证正负样本比例相等。
注意：如果仅仅使用上采样可能会引起模型的过拟合问题，保险方法上采样+下采样一起使用。

着眼于类别，即类别平衡采样。
策略：将样本按类别分组，每个类别生成一个样本列表。训练过程种先随机选择1个或几个类别，然后从各个类别所对应的样本列表中随机选择样本。这样就可以保证每个类被参与训练的机会均衡。
进一步地，海康威视在以上基础上提出了类别重组 ^[1] 方法，简化了步骤，具体读者自行阅读。

[1] Yang S. Several tips and tricks for ImageNet CNN training[M]. Technical Report. 2016.
[2] 解析深度学习–卷积神经网络原理与视觉实践. 魏秀参等.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.