機器學習week9(一)_anomaly detection

此章一直搞不懂爲麼要用正態分佈來表示屬性,爲麼不能用其他的呢?

9.1 problem motivation

     如下圖

     

9.2高斯分佈

此處有個注意點,即標準誤standard error 標準差standard deviation,前者=後者/n^1/2)

9.3算法

  密度估計

  此間假設,屬性之間相互獨立,但實際結果是,即使不獨立也可以取得較好的成效

 

接下來是完全步驟呢


這個epsilon很重要,相當於閾值,那麼閾值是怎樣設定的呢

9.4開發與評估一個異常檢測系統

 先前我們的數據集並沒有類標籤,即無監督學習,現在我們假設有了一些類標籤,then開始行動,If you do not have any labeled data (or if all your data has label y=0), then is is still possible to learn p(x), but it may be harder to evaluate the system or choose a good value of ϵ.


NG老師反覆強調將用相同的數據來表示測試集與驗證集並非是一個好的主意,雖然在現實中也有很多人在用這種方法,但不推薦


此處基於異常值過少,非對稱二元y值,所以用正確率來評判模型好壞並不現實,因爲pp太大

此處主要有三個度量來評估模型

1.TPR 即模型正確預測的正樣本的比例;FNR 即被預測爲負類的正樣本比例

2.靈敏性p (precision)被正確分類的正樣本佔被分類爲正樣本的比例 ,精度r(recall)即被正確分類的正樣本佔總正樣本的比例

3.F1度量2rp/(r+p),  Fb度量爲(b^2+1)rp/(r+(b^2 )p),當b=1時,兩者相等

使用時用不同特徵及epsilon來在驗證集上驗證,選出最大的那個,最後再用測試集來測試誤差


9.5異常值檢測與監督學習

首先來看一下兩種方法間的比較,前者適用於只有少數異常值,所以用正常值來訓練,異常值來檢驗,而後者適用於較大量異常值,所以用異常值來訓練,如下


故相應用途也不一樣


9.7屬性的選擇

 在實際數據處理的時候,可能屬性值並非爲正態分佈(即高斯分佈),這個時候就要用到轉換函數,如log(x+c) 或是x^n(n可爲任意數),再用hist(x,m)來觀察,m爲分的區間數

這就是NG老師經常做的誤差分析

如下圖,經常出現的狀況是正常值和異常值的p都較大,這個時候創建一個新屬性will be helpful(如右下)


具體如下這個例子一樣,增加與結果相關的屬性


9.8多元高斯分佈

有一些好處,也有一些不好的地方,可以抓取一些初步的算法難以找到的異常值


u的話代表質心位置,矩陣左上跟右下代表圓半徑,右上跟左下代表偏的方向,爲正,/,爲負,\   中間有個協方差矩陣,多看下,哈哈哈

9.9使用高斯分佈來進行異常檢測

    模型的公式



具體的步驟


當屬性與屬性之間相互獨立的時候,多元模型則與一元模型一一對應,此時,一元即是多元的特殊化見下圖,兩者區別如下呢




發佈了31 篇原創文章 · 獲贊 1 · 訪問量 3萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章