此章一直搞不懂爲麼要用正態分佈來表示屬性,爲麼不能用其他的呢?
9.1 problem motivation
如下圖
9.2高斯分佈
此處有個注意點,即標準誤standard error 標準差standard deviation,前者=後者/n^1/2)
9.3算法
密度估計
此間假設,屬性之間相互獨立,但實際結果是,即使不獨立也可以取得較好的成效
接下來是完全步驟呢
這個epsilon很重要,相當於閾值,那麼閾值是怎樣設定的呢
9.4開發與評估一個異常檢測系統
先前我們的數據集並沒有類標籤,即無監督學習,現在我們假設有了一些類標籤,then開始行動,If you do not have any labeled data (or if all your data has label y=0), then is is still possible to learn p(x), but it may be harder to evaluate the system or choose a good value of ϵ.
NG老師反覆強調將用相同的數據來表示測試集與驗證集並非是一個好的主意,雖然在現實中也有很多人在用這種方法,但不推薦
此處基於異常值過少,非對稱二元y值,所以用正確率來評判模型好壞並不現實,因爲pp太大
此處主要有三個度量來評估模型
1.TPR 即模型正確預測的正樣本的比例;FNR 即被預測爲負類的正樣本比例
2.靈敏性p (precision)被正確分類的正樣本佔被分類爲正樣本的比例 ,精度r(recall)即被正確分類的正樣本佔總正樣本的比例
3.F1度量2rp/(r+p), Fb度量爲(b^2+1)rp/(r+(b^2 )p),當b=1時,兩者相等
使用時用不同特徵及epsilon來在驗證集上驗證,選出最大的那個,最後再用測試集來測試誤差
9.5異常值檢測與監督學習
首先來看一下兩種方法間的比較,前者適用於只有少數異常值,所以用正常值來訓練,異常值來檢驗,而後者適用於較大量異常值,所以用異常值來訓練,如下
故相應用途也不一樣
9.7屬性的選擇
在實際數據處理的時候,可能屬性值並非爲正態分佈(即高斯分佈),這個時候就要用到轉換函數,如log(x+c) 或是x^n(n可爲任意數),再用hist(x,m)來觀察,m爲分的區間數
這就是NG老師經常做的誤差分析
如下圖,經常出現的狀況是正常值和異常值的p都較大,這個時候創建一個新屬性will be helpful(如右下)
具體如下這個例子一樣,增加與結果相關的屬性
9.8多元高斯分佈
有一些好處,也有一些不好的地方,可以抓取一些初步的算法難以找到的異常值
u的話代表質心位置,矩陣左上跟右下代表圓半徑,右上跟左下代表偏的方向,爲正,/,爲負,\ 中間有個協方差矩陣,多看下,哈哈哈
9.9使用高斯分佈來進行異常檢測
模型的公式
具體的步驟
當屬性與屬性之間相互獨立的時候,多元模型則與一元模型一一對應,此時,一元即是多元的特殊化見下圖,兩者區別如下呢