吳恩達機器學習-Chapter 16 異常檢測

目的:介紹無監督學習異常檢測算法,主要是用高斯分佈(正態分佈)數據模型

1. Lesson 123 問題動機

    1. 目的:解釋異常檢測的背景也應用場景
    2. 內容:給到一定的數據集,無監督訓練並建立模型(p(x),高斯分佈),當p(x)<ℇ時,代表異常
    3. 應用場景:交易欺詐、網站登錄異常、服務器集羣監控等

2. Lesson 124 高斯分佈

    1. 目的:介紹高斯分佈(正態分佈)
    2. 內容:
      1. 實數集x∈R,如果說x服從均值μ,方差𝜎2的正太分佈,則記爲:x~N(μ,𝜎2),其中μ空值曲線的中心,𝜎^2空值寬度


      2. 高斯分佈公式

      3. 標準正太分佈,μ=0,,𝜎=1

      4. 均值μ、方差𝜎^2公式

3. Lesson 125 算法

    1. 目的:介紹如何將高斯分佈應用於算法,以及如何開發

    2. 內容:∑表示累積相加,∏表示累積相乘,如果p(x)<ℇ表示x異常

4. Lesson 126 開發和評估異常檢測

    1. 目的:評估異常檢測算法
    2. 內容:
      1. 最好是有正樣本的數據集,並且將正樣本分散到驗證集和測試集中


      2. 異常檢測本身也是一個非對稱數據集,在具體評估時使用召回率(R=正確預測分類數量/實際正樣本數量,評估覆蓋度)、準確率(P=正確預測分類數量/預測正樣本數量,評估準確性)、F值(2(PR)/(P+R) ,F值越大越好)指標進行評估

5. Lesson 127 異常檢測與監督學習

    1. 目的:解釋異常檢測和監督學習的區別和不同應用場景
    2. 內容
      1. 當正樣本數量極少,負樣本數量極多(即非對稱數據集)時建議使用異常檢測算法,且正樣本的異常情況不好預測
      2. 當數據集同時包括了大量正負樣本時,可以使用監督學習

6. Lesson 128 選擇要使用的特徵

    1. 目的:如何選擇或設計異常檢測算法的特徵變量
    2. 內容:
      1. 首先畫出x的分佈圖,看是否服從正太分佈,如果不服從,可以用使用log(x+c)等函數使得x_new服從正太分佈



      2. 誤差分析,通過誤差分析找出異常值,並人工檢查看能否發現新的特徵,比如衍生變量(x1/x2等)

7. Lesson 129 多變量高斯分佈

    1. 目的:介紹原始多元分佈的延伸,多元高斯分佈
    2. 內容:
      1. 存在一種情況是單個獨立特徵服從高斯分佈,並不異常,但是組合起來就明顯異常,這個時候就需要用到多變量高斯分佈



      2. 多元高斯分佈公式



8. Lesson 130 使用多變量高斯分佈的異常檢測

    1.目的:講解多元高斯分佈算法公式
    2.內容
      1.具體公式已經放到上圖中

      2.原始模型與多元模型選擇場景,多元模型計算量較大(特別是特徵變量多的時候),原始模型通過衍生特徵一定程度上解決上面的問題
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章