Chapter 9 異常檢測與推薦系統 (reading notes)

原創

2019-02-19 06:37

文章目錄

2. 構建異常檢測系統

n. Reference

0. 版權聲明

Machine learning 系列筆記來源於Andrew Ng 教授在 Coursera 網站上所授課程《Machine learning》¹；
該系列筆記不以盈利爲目的，僅用於個人學習、課後複習及交流討論；
如有侵權，請與本人聯繫（[email protected]），經覈實後即刻刪除；
轉載請註明出處；

1. 異常檢測原理

1.1 Symbol

$p(x)$ ：隨機變量 x 的概率分佈；
$p(x;\mu,\sigma^2)$ ：服從正態分佈的隨機變量 x 的概率分佈，其均值爲 $\mu$ ，方差爲 $\sigma^2$ ；
$\mu_i$ ：隨機變量 $x$ 第 i 個特徵的均值；

1.2 Gaussian(Normal) distribution

高斯分佈：即正態分佈，服從該分佈的隨機變量 $x$ 均值爲 $\mu$ ，方差爲 $\sigma^2$ ，記爲 $x\sim N(\mu,\sigma^2)$ ；
- N 表示 Normal distribution；
- 標準差 $\sigma$ 決定高斯分佈概率密度函數的寬度；

1.3 異常檢測算法

密度估計問題：即求解 $p(x)$ ；
- 設隨機變量 $x$ 有多個特徵 $x_1,x_2,\dots,x_n$ ；
- $p(x)=p(x_1;\mu_1,\sigma^2_1)p(x_2;\mu_2,\sigma^2_2)\dots p(x_n;\mu_n,\sigma^2_n)=\prod_{j=1}^np(x_j;\mu_j,\sigma^2_j)$ ；

上式的前提爲特徵 $x_1,x_2,\dots,x_n$ 均獨立，即使不滿足該前提時，使用該式計算所得結果依然很好（語出 Andrew Ng 《Machine learning》 Week 9 視頻：Algorithm 2:19 秒）；

異常檢測算法的步驟：
- Step 1：選取若干特徵 $x_1,x_2,\dots,x_n$ ；
- Step 2：擬合期望與方差；
  - $\mu_i=\frac{1}{m}\sum_{i=1}^mx^{(i)}_j$ ，向量化可得 $\mu=\begin{bmatrix}\mu_1 \\\mu_2 \\\vdots \\\mu_n \end{bmatrix}=\frac{1}{m}\sum_{i=1}^mx^{(i)}$ ；
  - $\sigma^2_j=\frac{1}{m}\sum_{i=1}^m(x^{(i)}_j-\mu_j)^2$ ，向量化可得 $\sigma^2=\frac{1}{m}\sum_{i=1}^m(x^{(i)}-\mu)^2$ ；
- Step 3：對給定的新樣本 $x$ ，計算 $p(x)$ ；
  - $p(x)=\prod_{j=1}^np(x_j;\mu_j,\sigma^2_j)=\prod_{j=1}^n\frac{1}{\sqrt{2\pi}\sigma_j}exp(-\frac{(x_j-\mu_j)^2}{2\sigma^2_j})$ ；
  - 取閾值爲 $\epsilon$ ，若 $p(x)<\epsilon$ ，則新樣本 $x$ 爲異常點；

2. 構建異常檢測系統

2.1 如何評價一個異常檢測系統

異常檢測系統的評價算法：
- Step 1：將帶標籤的樣本劃分爲訓練集、交叉驗證集和測試集，樣本劃分時使假設訓練集中無異常樣本，交叉驗證集和測試集中有異常樣本；
  - 樣本劃分案例：數據集中有 10000 個正常樣本，20 個異常樣本，則將其劃分爲訓練集中有 6000 個正常樣本，交叉驗證集中有 2000 個正常樣本和 10 個異常樣本，測試集中有 2000 個正常樣本和 10 個異常樣本；
  - 訓練集中正常樣本數量較多，有利於擬合高斯分佈中的參數；
- Step 2：在訓練集中擬合模型 $p(x)$ 及參數 $\mu_1,\sigma_1,\mu_2,\sigma_2,\dots,\mu_n,\sigma_n$ ；
  - 一般而言，異常檢測問題中，正常樣本數量遠多於異常樣本數量，因此評價偏斜類問題時，使用 $F_1$ -score 作爲判斷依據；
  - 在交叉驗證集中，使用多個 $\epsilon$ ，使 $F_1$ -score 最大的 $\epsilon$ 即爲最合適的閾值，也使用該方式決定選擇那些特徵；
- Step 3：在測試集中評價算法；

2.2 異常檢測與監督學習的差異

Q：在異常檢測系統中使用了帶標籤的樣本，爲什麼不使用監督學習的方法解決該問題？
A：
- 異常檢測方法的適用場景：
  - 正常樣本較多，異常樣本較少；
  - 異常的種類較多，難以學到所有的異常類型，處理此前從未見過的異常類型；（導致引擎故障的原因有很多，算法難以通過較少的樣本，學到所有可能導致引擎故障的類型，也難以處理從未見過的新的異常類型）
- 監督學習方法的適用場景：
  - 正常樣本和異常樣本均較多；
  - 算法能夠通過數量足夠的樣本學到故障類型，判斷新樣本時僅需將其與已有的故障類型對應即可；

n. Reference

https://www.coursera.org/learn/machine-learning/home/welcome ↩︎

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

論文筆記之Structural Deep Network Embedding

本論文是kdd2016的一篇論文主要的目的也是做node embedding。主要的想法就是通過deep autoencode對node進行embedding，不過在在embedding的時候不僅考慮了1-hop的信息而且考慮

2020-07-08 10:23:34

神經網絡動量因子

其中動量係數一般取（0,1），直觀上理解就是要是當前梯度方向與前一步的梯度方向一樣，那麼就增加這一步的權值更新，要是不一樣就減少更新。更詳細的介紹參見《DeepLearning最優化方法之Momentum（動量）》

2020-07-08 10:23:34

Deep Learning 之參數初始化

本文僅對常見的參數初始化方法進行總結（大部分內容來自deep learning一書），原理性的問題不進行過多的探討。 Deep Learning中參數初始化十分重要，一般來說有以下這些原因： 1.初始點的選取，有時候能夠決定算法

2020-07-08 10:23:34

Python模塊調用與執行

一、模塊調用。複雜的程序都是多模塊的，所謂的模塊，在Python中就是一個py文件，不同的模塊實現不同的功能。一個模塊要調用其他模塊裏的東西，包括函數、變量等，需要“先導入模塊”。這些模塊都存放在同一目錄下，才能在一個模塊中導入並調

2020-07-08 01:59:55

Caffe Linux

1. Caffe Linux （For Ubuntu (>= 17.04)） Installing pre-compiled Caffesudo apt install caffe-cpu Installing Caffe f

2020-07-07 19:32:38

強化學習與深度強化學習理解

強化學習主要參考西瓜書和一些網上視頻加上個人理解，歡迎互動。強化學習的model如下圖所示，機器在當前狀態下做出動作a，然後環境反饋給機器下一個狀態和一個獎勵。假定狀態空間X，每一個狀態x∈X，動作空間A，每一個動作a∈A，獎

2020-07-07 17:47:36

機器學習之SVM(Hinge Loss+Kernel Trick)原理推導與解析

支持向量機（Support Vector Machine, SVM）是一類按監督學習方式對數據進行二元分類的廣義線性分類器（generalized linear classifier），其決策邊界是對學習樣本求解的最大邊距超平面。

2020-07-07 17:45:19

機器學習之K_means（附簡單手寫代碼）

聚類是一個將數據集中在某些方面相似的數據成員進行分類組織的過程，聚類就是一種發現這種內在結構的技術，聚類技術經常被稱爲無監督學習。 k均值聚類是最著名的劃分聚類算法，由於簡潔和效率使得他成爲所有聚類算法中最廣泛使用的。給定一個數據

2020-07-07 17:45:19

PCA（1）：基礎知識介紹

PCA算法思路：首先利用樣本集及特徵構建一個樣本矩陣，然後利用樣本矩陣計算得到一個協方差矩陣，再計算協方差矩陣的特徵值和特徵向量，保留特徵值前k個大的對應的特徵向量作爲新的維度方向，再將原始樣本數據轉換到新的空間維度。（

2020-07-07 15:17:22

矩陣的SVD分解（理論到計算結果）

爲什麼要用到SVD分解？從特徵值和特徵向量說起：首先回顧下特徵值和特徵向量的定義：其中A是一個m*m的實對稱矩陣，x是一個m維向量，則我們說λ是矩陣A的一個特徵值，而x是矩陣A的特徵值λ所對應的特徵向量。求出特徵值和特徵向量有什麼好

2020-07-07 15:17:20

PCA（2）：PCA算法實現的兩種方式

因爲樣本個數和特徵維度的是不相等de，所以組成的矩陣不是方陣。第一種方式：特徵分解思路基於樣本特徵維度，先求協方差矩陣---->再特徵分解（因爲協方差矩陣是方陣，所以可以使用特徵分解的思路）第二種方式：SVD分解 SVD理論：htt

2020-07-07 15:17:18

Coursera吳恩達機器學習編程練習ex5——正則化線性迴歸與偏差和方差

1. linearRegCostFunction.m function [J, grad] = linearRegCostFunction(X, y, theta, lambda) %LINEARREGCOSTFUNCTION Comp

不跑步就等肥

2020-07-07 15:12:31

BERT預訓練模型的演進過程！(附代碼)

文章目錄1. 什麼是BERT2. 從Word Embedding到Bert模型的發展2.1 圖像的預訓練2.2 Word Embedding2.3 ELMO2.4 GPT2.5 BERT2.5.1 Embedding2.5.2 M

2020-07-07 14:42:00

Transformer各層網絡結構詳解！面試必備！(附代碼實現)

文章目錄1. 什麼是Transformer2. Transformer結構2.1 總體結構2.2 Encoder層結構2.2.1 Positional Encoding2.2.2 Self-Attention2.2.3 Multi

2020-07-07 14:42:00

XLNet預訓練模型，看這篇就夠了！(代碼實現)

文章目錄1. 什麼是XLNet2. 自迴歸語言模型（Autoregressive LM）3. 自編碼語言模型（Autoencoder LM）4. XLNet模型4.1 排列語言建模（Permutation Language Mod

2020-07-07 14:41:58

24小時熱門文章

SQL優化-20231016

最新文章

最新評論文章