非平衡數據流學習——概念入門
非平衡數據流學習——概念入門
名詞解釋
- 數據流(data stream):隨時間依次到來的數據項。
- 概念飄移(concept drift):學習的概念隨着時間而變化。
- 分類:
- 按是否影響分類邊界分爲:虛概念飄移(Virtual concept drift)、實概念飄移(real concept drift)
- 按照變化率分爲:增量(incremental)、逐漸(gradual)、突然(sudden)、復現(recurring)
- 分類:
評價指標
- 預測表現
由於非平衡性的存在,通常使用後驗AUC,後驗G-means或者類別召回率來評價算法的好壞 - 內存消耗
- 更新時間
算法爲適應數據流中的新數據而更新所需要的時間。 - 決策時間
算法爲數據流中的新數據做決策而需要的時間。
非平衡數據流特點
- 同時出現概念飄移與非平衡率飄移
概念和非平衡率都會隨着時間而不斷變化 - 類別之間的關係在動態的變化
Majority類可能在過一段時間之後,變爲Minority類。沒有絕對的多數類和少數類。 - 存在類別的出現與消失
可能會出現下述情況:在只有A,B類的數據流中,出現了C類,再隨着時間的推移,A類數據消失,數據流中只有B,C兩類。 - 數據性質會發生變化
原本在類別邊界的點,隨着時間的推移,變爲類別的中心。 - 不容易獲得Ground truth
主流方法
- 數據層面
通過上下采樣,人爲的調整非平衡的比率。
缺點:可能改變類別分佈,不能處理概念飄移 - 算法層面
通過改變權重來提高小類數據的重要性 - 集成方法
通過把多個分類器集成在一起,提高算法表現 - 其他
- 一些專門針對類別進化(class evolution)問題提出的算法
- 獲取Ground Truth
通過主動學習等方法增加數據流中的類別標籤