數據的異常點檢測算法

應用場景

異常值在不同文獻、不同場景中有其不同的定義,需要根據自己對異常值的定義及自己數據的分佈選擇合適的異常值檢測方法。
異常檢測與監控的應用場景多樣,主要包括以下:

  • 時序數據的監控。監控數據在時間維度上的異常情況,這裏需要考慮時序數據的特性,比如趨勢和週期等。
  • 特徵工程中的數據異常。數據預處理的好壞,很大程度上決定了模型分析結果的好壞。其中,異常值(outliers)檢測是整個數據預處理過程中,十分重要的一環,它的存在可能對最終建立的模型的精度和泛化能力有較大的影響。當然檢測方法也是多種多樣。
  • AB測試中的數據異常。在計算轉化率(隨機變量服從0/1分佈)時,個別的異常值不會影響AB測試的整體效果,但在計算人均訂單數和人均pv數時,個別的極端值會對均值產生顯著影響。
  • 其他場景中的異常檢測和監控不一一列舉。

Isolation Forest

孤立森林,獨異森林(Isolation Forest,簡稱iForest):基於集成學習方法異常點檢測
適用於連續數據(Continuous numerical data)的異常檢測。

Z-score、3σ準則

Z-score是一維或低維特徵空間中的參數異常檢測方法。該技術假定數據是高斯分佈,異常值是分佈尾部的數據點,因此遠離數據的平均值。距離的遠近取決於使用公式計算的歸一化數據點ziz_{i}的設定閾值zthrz_{thr}
zi=(xiμ)/σ z_{i} = (x_{i} - \mu) / \sigma
zi>zthrz_{i}>z_{thr}則認爲是異常值。
還可以使用三倍於標準差之上的數據爲異常值等規則。
3σ原則爲:
數值分佈在(μ-σ,μ+σ)中的概率爲0.6826。
數值分佈在(μ-2σ,μ+2σ)中的概率爲0.9544
數值分佈在(μ-3σ,μ+3σ)中的概率爲0.9974
可以認爲,X的取值幾乎全部集中在(μ-3σ,μ+3σ)區間內,超出這個範圍則被認爲異常。
適用:高斯分佈的數據。

Numeric Outlier、Tukey箱型圖法

正態分佈的參數μ和σ極易受到個別異常值的影響,從而影響判定的有效性,因此又產生了Tukey箱型圖法。
數字異常值方法是一維特徵空間中最簡單的非參數異常值檢測方法,異常值可以通過IQR(InterQuartile Range)計算得的。計算第一和第三四分位數(Q1、Q3),異常值是位於四分位數範圍之外的數據點xix_{i}
在這裏插入圖片描述

上圖中IQR,即四分位間距Q3-Q1,(Q1, Q3)涵蓋了數據分佈最中間的50%的數據,具有穩健性。數據落在 (Q1-1.5IQR, Q3+1.5IQR) 範圍內,則認爲是正常值,在此範圍之外的即爲異常值。

基於密度的方法、DBSCAN

該技術基於DBSCAN聚類方法,DBSCAN是一維或多維特徵空間中的非參數,基於密度的離羣值檢測方法。將數據點劃分到cluster中,如果有點劃分不到任何一個cluster中,則爲異常點。
DBSCAN原理及實現
適用於任何形狀,是一種基於密度的方法。

冪律分佈

除了常見的正態分佈,還有一種極其重要卻極易被忽略的分佈-冪律分佈。在日常的數據分析中,訂單數據和瀏覽數據常呈現近似冪律分佈。
下圖展現的是社交網絡中用戶數和用戶粉絲數的關係,可以看出擁有200以上的粉絲的用戶數佔極少數,而擁有<100粉絲的用戶數成百上千,這就是冪律分佈的特點:少數羣體佔有着多數的資源。
在這裏插入圖片描述
呈現冪律分佈特點的數據可通過log轉換使觀測點近似其分佈在一條直線上,方便後續分析和預測。

迴歸相關

在迴歸分析中,尤其是線性迴歸中,異常的數值也會對模型的擬合效果產生較大的影響。
在這裏插入圖片描述
對圖中7個數據點進行擬合,藍色的迴歸曲線線受到右上方值的影響,偏向了它,擬合併不理想。檢測迴歸中的異常,有效的方式是計算每個數據點的Cook距離。Cook距離表徵了包含此觀測點和剔除此觀測點前後模型的擬合效果的差別,差別越大,此點對模型影響越大,可考慮刪除,因爲在一個穩健的模型中每個點對模型的影響都認爲是均勻的。刪除強影響點之後,橘色的曲線對大部分的點的擬合都比較滿意。

數據的時序監控

還有一些其他的異常值檢測方法。
One Class SVM算法:一分類向量機,非高斯分佈
EllipticEnvelope:基於高斯概率密度的異常點檢測
LocalOutlierFactor:(基於密度的局部異常因子)

參考:
https://blog.csdn.net/FlySky1991/article/details/80526257
https://zhuanlan.zhihu.com/p/65023844

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章