Background
Drowning in data, starving for knowledge.
如同礦石提煉黃金的過程,大量的數據中,只蘊含了少量有趣的事件。這些少量事件中,出現頻次相對更低的稀有事件,可能導致顯著的結果,且往往是負面的。
應用
- 網絡入侵檢測
- 信用卡欺詐檢測
- 病理診斷
傳統策略在稀有事件分析中的不足
以網絡KPI問題定位爲例:
- 異常點處理:考慮KPI問題點和數據打點問題點的區別;
- 特徵選取和提取:
> a <- c(rnorm(100), 15)
> b <- c(rnorm(100), 15)
> cor(a, b, method ="spearman")
[1] 0.1072103
> cor(a, b, method = "pearson")
[1] 0.7590896
- 評估標準不適用