目的:介紹無監督學習異常檢測算法,主要是用高斯分佈(正態分佈)數據模型
1. Lesson 123 問題動機
1. 目的:解釋異常檢測的背景也應用場景
2. 內容:給到一定的數據集,無監督訓練並建立模型(p(x),高斯分佈),當p(x)<ℇ時,代表異常
3. 應用場景:交易欺詐、網站登錄異常、服務器集羣監控等
2. Lesson 124 高斯分佈
1. 目的:介紹高斯分佈(正態分佈)
2. 內容:
1. 實數集x∈R,如果說x服從均值μ,方差𝜎2的正太分佈,則記爲:x~N(μ,𝜎2),其中μ空值曲線的中心,𝜎^2空值寬度
2. 高斯分佈公式
3. 標準正太分佈,μ=0,,𝜎=1
4. 均值μ、方差𝜎^2公式
3. Lesson 125 算法
1. 目的:介紹如何將高斯分佈應用於算法,以及如何開發
4. Lesson 126 開發和評估異常檢測
1. 目的:評估異常檢測算法
2. 內容:
1. 最好是有正樣本的數據集,並且將正樣本分散到驗證集和測試集中
2. 異常檢測本身也是一個非對稱數據集,在具體評估時使用召回率(R=正確預測分類數量/實際正樣本數量,評估覆蓋度)、準確率(P=正確預測分類數量/預測正樣本數量,評估準確性)、F值(2(PR)/(P+R) ,F值越大越好)指標進行評估
5. Lesson 127 異常檢測與監督學習
1. 目的:解釋異常檢測和監督學習的區別和不同應用場景
2. 內容
1. 當正樣本數量極少,負樣本數量極多(即非對稱數據集)時建議使用異常檢測算法,且正樣本的異常情況不好預測
2. 當數據集同時包括了大量正負樣本時,可以使用監督學習
6. Lesson 128 選擇要使用的特徵
1. 目的:如何選擇或設計異常檢測算法的特徵變量
2. 內容:
1. 首先畫出x的分佈圖,看是否服從正太分佈,如果不服從,可以用使用log(x+c)等函數使得x_new服從正太分佈
2. 誤差分析,通過誤差分析找出異常值,並人工檢查看能否發現新的特徵,比如衍生變量(x1/x2等)
7. Lesson 129 多變量高斯分佈
1. 目的:介紹原始多元分佈的延伸,多元高斯分佈
2. 內容:
1. 存在一種情況是單個獨立特徵服從高斯分佈,並不異常,但是組合起來就明顯異常,這個時候就需要用到多變量高斯分佈
2. 多元高斯分佈公式
8. Lesson 130 使用多變量高斯分佈的異常檢測
1.目的:講解多元高斯分佈算法公式
2.內容
1.具體公式已經放到上圖中