非平衡數據流學習——概念入門

非平衡數據流學習——概念入門

名詞解釋

  • 數據流(data stream):隨時間依次到來的數據項。
  • 概念飄移(concept drift):學習的概念隨着時間而變化。
    • 分類:
      • 按是否影響分類邊界分爲:虛概念飄移(Virtual concept drift)、實概念飄移(real concept drift)
      • 按照變化率分爲:增量(incremental)、逐漸(gradual)、突然(sudden)、復現(recurring)

評價指標

  1. 預測表現
    由於非平衡性的存在,通常使用後驗AUC,後驗G-means或者類別召回率來評價算法的好壞
  2. 內存消耗
  3. 更新時間
    算法爲適應數據流中的新數據而更新所需要的時間。
  4. 決策時間
    算法爲數據流中的新數據做決策而需要的時間。

非平衡數據流特點

  1. 同時出現概念飄移與非平衡率飄移
    概念和非平衡率都會隨着時間而不斷變化
  2. 類別之間的關係在動態的變化
    Majority類可能在過一段時間之後,變爲Minority類。沒有絕對的多數類和少數類。
  3. 存在類別的出現與消失
    可能會出現下述情況:在只有A,B類的數據流中,出現了C類,再隨着時間的推移,A類數據消失,數據流中只有B,C兩類。
  4. 數據性質會發生變化
    原本在類別邊界的點,隨着時間的推移,變爲類別的中心。
  5. 不容易獲得Ground truth

主流方法

  • 數據層面
    通過上下采樣,人爲的調整非平衡的比率。
    缺點:可能改變類別分佈,不能處理概念飄移
  • 算法層面
    通過改變權重來提高小類數據的重要性
  • 集成方法
    通過把多個分類器集成在一起,提高算法表現
  • 其他
    • 一些專門針對類別進化(class evolution)問題提出的算法
    • 獲取Ground Truth
      通過主動學習等方法增加數據流中的類別標籤
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章