异常检测 anomaly detection

原創

木杉Vincent

2018-12-23 16:47

异常检测的应用

欺诈检测
工业质量监测
计算机集群监测
等等

定义

给定一些数据集 $D=\{x_1,x_2,\dots,x_m\}$ ,注意这些样本是unlabel的，构建一个模型 $p(x)$ ，对于一个新的样本 $x_{test}$ ，判断该样本是否异常。当 $p(x_{test})\le \epsilon$ 时为异常， $p(x_{test})> \epsilon$ 为正常的。

高斯分布

高斯分布又称正态分布

如果一个实数服从高斯分布，表示为 $X \sim N(\mu,\sigma)$ , $\mu$ 是均值,控制函数的中心， $\sigma$ 是方差，控制函数的宽度。

公式

$N(\mu,\sigma)=\frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

异常检测算法

数据集 $X=\{x^1,x^2,\dots,x^m\},x\in \mathbb{R}^n$
计算每个特征 $j$ 的高斯分布参数 $\mu_j,\sigma_j$ :
$\mu_j=\frac{1}{m}\sum_{i=1}^{m}x_j^i$
$\sigma_j^2=\frac{1}{m}\sum_{i=1}^{m}(x_j^i-\mu_j)^2$
对于每一个待测试样本，计算
$p(x)=\prod_{j=1}^{n}p(x_j;\mu_j;\sigma_j^2)=\prod_{j=1}^{n}\frac{1}{\sqrt{2\pi\sigma_j^2}} e^{-\frac{(x_j-\mu_j)^2}{2\sigma_j^2}}$
将结果跟阈值 $\epsilon$ 比较， $p(x) < \epsilon$ 则为异常

建立一个异常检测系统的一般步骤

将带有label的数据集划分为训练集、验证集和测试集

注意将异常数据大致平均分配到每个集合中

通常情况下，验证集和测试集的数据都应该是互不相同的，即两个集合没有交集
使用训练集训练算法P(x)

为了避免正负样本分布不均，使用F1-score来评价算法性能
使用验证集来选择阈值 $\epsilon$

异常检测和监督学习的区别

异常检测

正例（异常样本）通常都非常少，通常是10这个数量级。
反例（正常样本）数量非常多。
异常的种类非常多，无法通过特征一一确定。未来的异常种类不能预见。

监督学习

正例和反例都非常多，并且分布差异不大
可以用特征来确定分类

数据预处理

当特征的样本分布为正态分布时，可以直接将样本fit到算法中

当数据为长尾分布时

使用
$x=log(x+c) \\ or\\ x=x^c,\quad c<1$
来将数据转换为正态分布

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

异常检测 anomaly detection

异常检测的应用

定义

高斯分布

公式

异常检测算法

建立一个异常检测系统的一般步骤

异常检测和监督学习的区别

异常检测

监督学习

数据预处理

如何使用 JS 判断用户是否处于活跃状态

通过HPA+CronHPA组合应对业务复杂弹性伸缩场景

Windows下C++使用thread時無法識別thread和mutex相關庫的解決

DNS新記錄插入圖解和總結

TCP擁塞控制總結圖

MATLAB 實現zigzag掃描（z字形掃描）

LeetCode 2：Add Two Numbers解題

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結