異常檢測算法比較

只有 1% 的標記異常,⼤多數半監督⽅法可以勝過最好的⽆監督⽅法,證明了監督的重要性; (iii) 在受 控環境中,我們觀察到針對特定異常類型的最佳⽆監督⽅法甚⾄優於半監督和完全監督⽅法,揭⽰了理解數據特徵 的必要性; (iv) 半監督⽅法顯⽰出在噪聲和損壞數據中實現魯棒性的潛⼒,這可能是由於它們在使⽤標籤和特徵選 擇⽅⾯的效率。

沒有⼀種⽆監督⽅法在統計上優於其 他⽅法。我們還注意到⼀些基於 DL 的⽆監督⽅法,如 DeepSVDD 和 DAGMM,⽐淺層⽅法差得驚⼈。如果沒有標籤信息 的指導,基於 DL 的⽆監督算法更難訓練(由於超參數更多),也更難調整超參數,導致性能不盡如⼈意。

當可⽤的標籤信息有限時,半監督⽅法優於監督⽅法。對於γl ≤ 5%,即在訓練期間只有不到5%的標記異常可⽤,半監督 ⽅法的檢測性能(中值 AUCROC= 75.56% for γl = 1%和 AUCROC= 80.95% for γl = 5%)通常優於全監督算法(對 於γl = 1%, AUCROC= 60.84% ,對於γl = 5% ,AUCROC= 72.69% )。對於⼤多數半監督⽅法,僅1%的標記異常就⾜ 以超越最好的⽆監督⽅法(如圖 4b 中的虛線所⽰),⽽⼤多數監督⽅法需要10%的標記異常才能實現。我們還展⽰了 關於增加γl的算法性能的改進,並注意到在有⼤量標記異常的情況下,半監督和監督⽅法具有可⽐的性能。將這些放在⼀ 起,我們驗證了半監督⽅法在更有效地利⽤有限標籤信息⽅⾯的假設優勢。

最新的⽹絡架構,如 Transformer 和新興的集成⽅法,在 AD 中產⽣了有競爭⼒的性能。圖 4b 顯⽰ FTTransformer 和 XGB(oost)和 CatB(oost) 等集成⽅法在所有標籤通知算法中提供了令⼈滿意的檢測性能,即使這些⽅法不是專⻔爲 異常檢測任務提出的。對於γl = 1%, FTTransformer 的 AUCROC 和集成⽅法的中值 AUCROC 分別爲74.68%和 76.47%,優於所有標籤通知⽅法的中值 AUCROC 72.91%。

基於樹的集成(在表格 AD 中)的出⾊性能與⽂獻[20、58、170 ] 中的發現⼀致,這可能歸功於它們通過聚合處理不平衡 AD 數據集的能⼒。

運⾏時分析發現 HBOS、COPOD、ECOD 和 NB 是 最快的,因爲它們獨⽴處理每個特徵。相⽐之下,XGBOD、ResNet 和FTTansformer 等更復雜的表⽰學習⽅法的計算量 很⼤。在選擇算法時應考慮這⼀點。

 Semi- (left of each subfigure) and supervised (right) algorithms’ performance on different types of anomalies with varying levels of labeled anomalies. Surprisingly, these label-informed algorithms are inferior to the best unsupervised method except for the clustered anomalies.

 

 

⽆監督算法的性能在很⼤程度上取決於其假設與潛在異常類型的⼀致性。正如預期的那樣,對於局部異常,局部異常因 ⼦ (LOF) 在統計上優於其他⽆監督⽅法(圖 5a),⽽使⽤第 k 個(全局)最近鄰距離作爲異常分數的KNN是統計上最 好的檢測器全球異常(圖5b)。同樣,沒有⼀種算法對所有類型的異常都表現良好; LOF在局部異常上取得了最好的 AUCROC(圖 5a),在依賴性異常上取得了第⼆好的 AUCROC 排名(圖 5c),但在集羣異常上表現不佳(圖 5d)。 從業者應根據底層任務的特點選擇算法,並考慮可能涵蓋更多⾼興趣異常類型的算法。

對於局部、全局和依賴異常,⼤多數標籤通知⽅法⽐每種類型(對應於 LOF、KNN 和 KNN)的最佳⽆監督⽅法表現更差。 例如,當γl ≤ 50% 時, XGBOD 對局部異常的檢測性能不如最好的⽆監督⽅法 LOF ,⽽其他⽅法在所有情況下的性能 都⽐ LOF 差(⻅圖 6a)。爲什麼標籤通知算法不能在這種情況下擊敗⽆監督⽅法?我們認爲,部分標記的異常⽆法很好地捕獲特定 類型異常的所有特徵,並且學習此類決策邊界具有挑戰性。例如,不同的局部異常通常表現出不同的⾏爲,如 圖 3a 所⽰,這可能更容易通過⾮監督⽅法中“局部性”的通⽤定義⽽不是特定標籤來識別。因此,不完整的 標籤信息可能會使學習過程產⽣偏差這些標籤通知⽅法,這解釋了與最好的⽆監督⽅法相⽐,它們的性能相 對較差。這⼀結論通過聚類異常的結果進⼀步驗證(⻅圖 6d),其中標籤通知(尤其是半監督)⽅法優於 最好的⽆監督⽅法 OCSVM,因爲很少有標記的異常已經可以表⽰集羣異常中的相似⾏爲。

 

 

⽆監督⽅法更容易出現重複異常。如圖 7a 所⽰,⼏乎所有⽆監督⽅法都受到重複異常的嚴重影響。他們的 AUCROC 隨着 重複的增加成⽐例地惡化。當異常重複6次時,⽆監督⽅法的中值ΔAUCROC爲-16.43%,⽽半監督⽅法爲-0.05% (圖 7b) 和監督⽅法爲0.13% (圖 7c)。⼀種解釋是,⽆監督⽅法通常假設基礎數據是不平衡的,只有較⼩⽐例的異常它們依賴 於這種假設來檢測異常。隨着更多的重複異常,基礎數據變得更加平衡,並且違反了異常的少數假設,導致⽆監督⽅法的退 化。不同的是,在標籤的幫助下,更平衡的數據集不會顯着影響半監督和全監督⽅法的性能。

 由於特徵選擇,不相關的特徵對監督⽅法的影響很⼩。與⽆監督和⼤多數半監督⽅法相⽐,監督⽅法的訓練過程完 全由數據標籤(y) 指導,因此由於直接(或間接)特徵選擇過程。例如,像 XGBoost 這樣的集成樹可以過濾不相關 的特徵。如圖 7f 所⽰,當 50% 的輸⼊特徵被均勻噪聲破壞時,即使是此設置中性能最差的監督算法(例如 ResNet)也會產⽣≤ 5%的退化,⽽⾮監督和半監督⽅法可能⾯臨⾼達10% 的降解。此外,監督⽅法(以及 DevNet 等⼀些半監督⽅法)的穩健性能表明標籤信息可能有助於特徵選擇。此外,圖 7f 顯⽰次要的不相關特徵(例如 1%) 有助於作爲正則化的監督⽅法更好地泛化。

 半監督和全監督⽅法都顯⽰出對微⼩註釋錯誤的強⼤恢復能⼒。 儘管當註釋錯誤嚴重時這些⽅法的檢測性能會顯着降低(如圖 7g 和 7h 所⽰),但它們在較⼩註釋錯誤⽅⾯的 性能下降是可以接受的。 5%註釋錯誤的半監督和完全監督⽅法的中值ΔAUCROC分別爲−1.52%和−1.91% 。 話雖如此,標籤通知⽅法在實踐中仍然是可以接受的,因爲註釋錯誤應該相對較

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章