非平衡数据流学习——概念入门

非平衡数据流学习——概念入门

名词解释

  • 数据流(data stream):随时间依次到来的数据项。
  • 概念飘移(concept drift):学习的概念随着时间而变化。
    • 分类:
      • 按是否影响分类边界分为:虚概念飘移(Virtual concept drift)、实概念飘移(real concept drift)
      • 按照变化率分为:增量(incremental)、逐渐(gradual)、突然(sudden)、复现(recurring)

评价指标

  1. 预测表现
    由于非平衡性的存在,通常使用后验AUC,后验G-means或者类别召回率来评价算法的好坏
  2. 内存消耗
  3. 更新时间
    算法为适应数据流中的新数据而更新所需要的时间。
  4. 决策时间
    算法为数据流中的新数据做决策而需要的时间。

非平衡数据流特点

  1. 同时出现概念飘移与非平衡率飘移
    概念和非平衡率都会随着时间而不断变化
  2. 类别之间的关系在动态的变化
    Majority类可能在过一段时间之后,变为Minority类。没有绝对的多数类和少数类。
  3. 存在类别的出现与消失
    可能会出现下述情况:在只有A,B类的数据流中,出现了C类,再随着时间的推移,A类数据消失,数据流中只有B,C两类。
  4. 数据性质会发生变化
    原本在类别边界的点,随着时间的推移,变为类别的中心。
  5. 不容易获得Ground truth

主流方法

  • 数据层面
    通过上下采样,人为的调整非平衡的比率。
    缺点:可能改变类别分布,不能处理概念飘移
  • 算法层面
    通过改变权重来提高小类数据的重要性
  • 集成方法
    通过把多个分类器集成在一起,提高算法表现
  • 其他
    • 一些专门针对类别进化(class evolution)问题提出的算法
    • 获取Ground Truth
      通过主动学习等方法增加数据流中的类别标签
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章