非平衡数据流学习——概念入门

原創

2020-06-27 00:07

非平衡数据流学习——概念入门

非平衡数据流学习——概念入门

非平衡数据流学习——概念入门

名词解释

数据流(data stream)：随时间依次到来的数据项。
概念飘移(concept drift)：学习的概念随着时间而变化。
- 分类：
  - 按是否影响分类边界分为：虚概念飘移(Virtual concept drift)、实概念飘移(real concept drift)
  - 按照变化率分为：增量（incremental）、逐渐（gradual）、突然（sudden）、复现（recurring）

评价指标

预测表现
由于非平衡性的存在，通常使用后验AUC，后验G-means或者类别召回率来评价算法的好坏
内存消耗
更新时间
算法为适应数据流中的新数据而更新所需要的时间。
决策时间
算法为数据流中的新数据做决策而需要的时间。

非平衡数据流特点

同时出现概念飘移与非平衡率飘移
概念和非平衡率都会随着时间而不断变化
类别之间的关系在动态的变化
Majority类可能在过一段时间之后，变为Minority类。没有绝对的多数类和少数类。
存在类别的出现与消失
可能会出现下述情况：在只有A，B类的数据流中，出现了C类，再随着时间的推移，A类数据消失，数据流中只有B，C两类。
数据性质会发生变化
原本在类别边界的点，随着时间的推移，变为类别的中心。
不容易获得Ground truth

主流方法

数据层面
通过上下采样，人为的调整非平衡的比率。
缺点：可能改变类别分布，不能处理概念飘移
算法层面
通过改变权重来提高小类数据的重要性
集成方法
通过把多个分类器集成在一起，提高算法表现
其他
- 一些专门针对类别进化（class evolution）问题提出的算法
- 获取Ground Truth
  通过主动学习等方法增加数据流中的类别标签

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

24小時熱門文章

最新文章

最新評論文章