異常檢測
Anomaly detection
舉個飛機制造廠商的例子
其實類似於生產線的QA 質量控制測試
密度估計
- 小於閾值,異常點
- 大於閾值,正常
應用較爲廣泛的實際上有欺詐異常檢測,也有製造業欺詐
高斯分佈 Gaussian distribution
也叫正態分佈 normal distribution
方差 variance
高斯分佈例子
參數估計
樣本的密度估計
density estimation
異常檢測算法
- 選擇特徵量
- 參數擬合
- 根據新樣本計算樣本的概率
異常檢測算法實例
實數評價法的重要性
The importance of real-number evaluation
當你用某個應用開發一個及其學習算法時,你常常要進行一系列的選擇。比如說,選擇用什麼樣的特徵,等等。當你找到某種評估方法,直接返回一個實數,來評估你的算法的好壞,往往會容易很多。比如,現在有一個新特性,你需要決定該不該把這個特徵考慮進來?
when developing a learning algorithm,making decisions is much easier if we have a way of evaluating our learning algorithm.
要定義一個交叉驗證集 Cross validation set 和測試集 Test set,通過兩個集合來用於評估這個異常檢測算法。
我們假設在交叉驗證集和測試集中有一些樣本已知是異常的樣本即y = 1
飛行器例子
10000 的數據,可分配給異常數據2-50個
評估算法
-
估計特徵的平均值和方差,構建p(x)概率模型
-
根據閥值,對交叉檢驗集/測試機進行預測其數據是否異常
-
幾個評估的指標:
1)true positive,false positive,false negative,true negative
2)準確率 prediction 或召回率 Recall
3)F1值,實數,可以總結和反應精確度