非平衡數據流學習——概念入門

原創

2020-06-27 00:07

非平衡數據流學習——概念入門

非平衡數據流學習——概念入門

非平衡數據流學習——概念入門

名詞解釋

數據流(data stream)：隨時間依次到來的數據項。
概念飄移(concept drift)：學習的概念隨着時間而變化。
- 分類：
  - 按是否影響分類邊界分爲：虛概念飄移(Virtual concept drift)、實概念飄移(real concept drift)
  - 按照變化率分爲：增量（incremental）、逐漸（gradual）、突然（sudden）、復現（recurring）

評價指標

預測表現
由於非平衡性的存在，通常使用後驗AUC，後驗G-means或者類別召回率來評價算法的好壞
內存消耗
更新時間
算法爲適應數據流中的新數據而更新所需要的時間。
決策時間
算法爲數據流中的新數據做決策而需要的時間。

非平衡數據流特點

同時出現概念飄移與非平衡率飄移
概念和非平衡率都會隨着時間而不斷變化
類別之間的關係在動態的變化
Majority類可能在過一段時間之後，變爲Minority類。沒有絕對的多數類和少數類。
存在類別的出現與消失
可能會出現下述情況：在只有A，B類的數據流中，出現了C類，再隨着時間的推移，A類數據消失，數據流中只有B，C兩類。
數據性質會發生變化
原本在類別邊界的點，隨着時間的推移，變爲類別的中心。
不容易獲得Ground truth

主流方法

數據層面
通過上下采樣，人爲的調整非平衡的比率。
缺點：可能改變類別分佈，不能處理概念飄移
算法層面
通過改變權重來提高小類數據的重要性
集成方法
通過把多個分類器集成在一起，提高算法表現
其他
- 一些專門針對類別進化（class evolution）問題提出的算法
- 獲取Ground Truth
  通過主動學習等方法增加數據流中的類別標籤

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

24小時熱門文章

最新文章

最新評論文章