什麼是異常值?
異常值是一種和其他觀察數據有顯著差異,讓人懷疑它是由不同的機制產生的數據
異常檢測應用舉例:
- 入侵檢測系統:在許多計算機系統中,收集關於操作系統調用,網絡流量或其他用戶動作的不同類型的數據。 由於惡意活動,此數據可能會顯示異常行爲。 對此類活動的識別稱爲入侵檢測。
- 信用卡欺詐:未授權使用的信用卡消費(如盜刷信用卡)會存在很多異常行爲(如非常用地消費、大額消費)
- 傳感網絡
- 醫療診斷:醫療設備記錄下數據,數據中不尋常的模式常常意味着疾病
- 執法:異常值檢測在執法中有許多應用,特別是在只有通過一個實體的多次操作才能在一段時間內發現異常模式的情況下。確定金融交易或保險索賠中的欺詐行爲,通常需要在犯罪實體的行爲生成的數據中識別出異常模式
- 地球科學:通過衛星或遙感等各種機制收集了大量關於天氣模式、氣候變化或土地覆蓋模式的時空數據。這些數據中的異常提供了關於人類活動或環境趨勢的重要洞見,這些可能是潛在原因。
異常檢測算法的輸出是什麼?
- 離羣值:大多數離羣值檢測算法輸出一個分數,量化每個數據點的“離羣值”水平。這個分數也可以用來對數據點按其離羣趨勢進行排序。這是一種非常普遍的輸出形式,它保留了特定算法提供的所有信息,但它沒有提供應該被視爲異常值的少量數據點的簡明摘要。
- 二分類標籤(是否是離羣值):這通常是通過對離羣值設置閾值來實現的。
噪聲和異常值的區別是什麼?
判斷數據是否異常通常是主觀的。實際數據中,可能有大量噪聲,這些噪聲可能不是我們分析師感興趣的。
a圖中的點A是異常點(anomalies),b圖中的點A是噪聲(noise)。
離羣點包括噪聲和異常值,異常值往往是得分比噪聲更高的點。
分類方法和它們在異常檢測中的無監督應用的同類物
監督模型 | 無監督推廣 | 類型 |
---|---|---|
k最近鄰 | knn距離,lof,loci | 基於實例 |
線性迴歸 | 主成分分析 | 明確泛化 |
樸素貝葉斯 | 期望最大化 | 明確泛化 |
Rocchio | Mahalanobis method、聚類 | 明確泛化 |
決策樹、隨機森林 | 隔離樹、隔離森林 | 明確泛化 |
基於規則 | FP-Outlier | 明確泛化 |
支持向量機 | 一分類支持向量機 | 明確泛化 |
神經網絡 | Replicator neural networks | 明確泛化 |
矩陣分解 | 主成分分析矩陣分解 | 明確泛化 |