异常检测——基于统计学方法(参数方法、非参数方法、HBOS、pyod库)

涉及知识点

统计学异常检测的思想
基于参数方法的异常检测
基于非参数方法的异常检测
HBOS
Python中PyOD库生成toy example并调用HBOS实例

1、统计学中对异常检测的思想

统计学方法对异常检测的思想是在于假定和学习数据符合一个具体的模型或分布，而当给定的具体数据在假设模型中出现概率较低的时候，就认为是异常数据。  **其有效性高度依赖于对给定的模型所做的假定的统计模型是否成立**。在其中通过事先给定模型的方法称为参数方法，通过给定数据学习模型的方法称为非参数方法。

参数方法假定正常的数据对象被一个以 Θ \Theta Θ为参数的参数分布产生。该参数分布的概率密度函数 f ( x , Θ ) f(x,\Theta) f(x,Θ)给出对象 x x x被该分布产生的概率。该概率值越小， x x x越可能是异常点。

非参数方法并不假定先验统计模型，而是试图从输入数据确定模型。非参数方法通常假定参数的个数和性质都是灵活的，不预先确定（所以非参数方法并不是说模型是完全无参的，完全无参的情况下从数据学习模型是不可能的）。

2 、基于参数方法的异常检测

在样本数据的均值十分贴近于分布函数的中心且数据集足够大的情况下，可以利用参数方法来识别异常值

2.1 一元正态假定下异常点的检测

将只涉及一个属性和变量的数据称为一元数据，我们假定数据样本服从正态分布，即 x ( i ) ∼ N ( μ , σ 2 ) x^{(i)}\sim N(\mu, \sigma^2) x(i)∼N(μ,σ2)，我们可以根据样本求出参数 μ \mu μ和 σ \sigma σ。

μ = 1 m ∑ i = 1 m x ( i ) \mu=\frac 1m\sum_{i=1}^m x^{(i)} μ=m1∑i=1mx(i)

σ 2 = 1 m ∑ i = 1 m ( x ( i ) − μ ) 2 \sigma^2=\frac 1m\sum_{i=1}^m (x^{(i)}-\mu)^2 σ2=m1∑i=1m(x(i)−μ)2
计算出正态分布的均值和方差估计，即相当于知道了正态分布的密度函数，然后就可以计算出出现样本以及更极端情况下的概率，然后通过与设置的阈值进行比较，若低于阈值，则认为是异常点。

阈值是个经验值可多次选取，但通过选取验证集上使得评估指标或评估效果最好的阈值作为最终阈值。

此外还可通过3sigma原则进行判断，如果数据点超过范围 ( μ − 3 σ , μ + 3 σ ) (\mu-3\sigma, \mu+3\sigma) (μ−3σ,μ+3σ)，那么这些点很有可能是异常点。

2.2 多元异常点检测
涉及两个或多个属性或变量的数据称为多元数据。
2.2.1 多元各维度之间相互独立的情况
许多一元异常点检测方法都可以扩充，用来处理多元各维度独立的情况数据。其核心思想是把多元异常点检测任务转换成一元异常点检测问题。如基于正态分布的一元异常点检测扩充到多元情形时，可以求出每一维度的均值和标准差。
对于第 j j j维：

μ j = 1 m ∑ i = 1 m x j ( i ) \mu_j=\frac 1m\sum_{i=1}^m x_j^{(i)} μj=m1∑i=1mxj(i)

σ j 2 = 1 m ∑ i = 1 m ( x j ( i ) − μ j ) 2 \sigma_j^2=\frac 1m\sum_{i=1}^m (x_j^{(i)}-\mu_j)^2 σj2=m1∑i=1m(xj(i)−μj)2

计算概率时的概率密度函数为

p ( x ) = ∏ j = 1 n p ( x j ; μ j , σ j 2 ) = ∏ j = 1 n 1 2 π σ j e x p ( − ( x j − μ j ) 2 2 σ j 2 ) p(x)=\prod_{j=1}^n p(x_j;\mu_j,\sigma_j^2)=\prod_{j=1}^n\frac 1{\sqrt{2\pi}\sigma_j}exp(-\frac{(x_j-\mu_j)^2}{2\sigma_j^2}) p(x)=∏j=1np(xj;μj,σj2)=∏j=1n2π σj1exp(−2σj2(xj−μj)2)
最后再利用p值与阈值对比、3sigma原则等方法进行检验

2.2.2 多元多个特征相关，且符合多元高斯分布的情况

μ = 1 m ∑ i = 1 m x ( i ) \mu=\frac{1}{m}\sum^m_{i=1}x^{(i)} μ=m1∑i=1mx(i)

∑ = 1 m ∑ i = 1 m ( x ( i ) − μ ) ( x ( i ) − μ ) T \sum=\frac{1}{m}\sum^m_{i=1}(x^{(i)}-\mu)(x^{(i)}-\mu)^T ∑=m1∑i=1m(x(i)−μ)(x(i)−μ)T

p ( x ) = 1 ( 2 π ) n 2 ∣ Σ ∣ 1 2 exp ⁡ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) p(x)=\frac{1}{(2 \pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}} \exp \left(-\frac{1}{2}(x-\mu)^{T} \Sigma^{-1}(x-\mu)\right) p(x)=(2π)2n∣Σ∣211exp(−21(x−μ)TΣ−1(x−μ))
用训练集来拟合参数u和Σ，从而拟合模型p(x)

使用p(x)的计算公式计算出p(x)的值，如果p(x)<ε就将它标记为一个异常点

当我们对上图中那个绿色的点进行异常检测时，这些红色的点服从多元高斯正态分布(x1与x2正相关)，算法会将绿色的判断为异常点，因为它远离这个高斯分布中心点。

2.2.3 使用混合参数分布
许多情况下假定数据是由正态分布产生的。当实际数据很复杂时，这种假定过于简单，可以假定数据是被混合参数分布产生的。

3、基于非参数方法的异常检测

在异常检测的非参数方法中，“正常数据”的模型从输入数据学习，而不是假定一个先验。通常，非参数方法对数据做较少假定，因而在更多情况下都可以使用。

可以通过箱线图的形式进行判断，异常点常被定义为小于Q1－1.5IQR或大于Q3+1.5IQR的那些数据（Q1、Q3分别为1/4和3/4分位数，QR为Q3-QQ1四分位距）：

import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

data = np.random.randn(50000) * 20 + 20
sns.boxplot(data=data)

这里要注意，如果数据集中存在分类数据，则要采用多变量的分析方法，按照各类别分别绘制箱线图检测异常点，而不能单纯利用单变量分析方法，否则会错误的识别出异常值。

相对于参数方法，如果数据的中位数比均值更贴近于数据的分布中心，则应利用箱线图等非参数方法来识别异常值

numpy.random用法

np.random.seed()
#当我们设置相同的seed，每次生成的随机数相同。如果不设置seed，则每次会生成不同的随机数
numpy.random.rand(4,2)
#根据给定维度生成[0,1)之间的数据，包含0，不包含1，返回值为指定维度的array
numpy.random.randn(d0,d1,…,dn)
#randn函数根据维度返回一个具有标准正态分布的数据，返回值为指定维度的array
numpy.random.randint(low, high=None, size=None, dtype=’l’)
#返回随机整数，范围区间为[low,high），包含low，不包含high，size为数组维度大小，dtype为数据类型，默认的数据类型是np.int。

numpy.random.choice(a, size=None, replace=True, p=None)
#从给定的一维数组中生成随机数
# a为一维数组类似数据或整数；size为数组维度；p为数组中的数据出现的概率，a为整数时，对应的一维数组为np.arange(a)
#参数p的长度与参数a的长度需要一致；参数p为概率，p里的数据之和应为1
#demo_list = ['lenovo', 'sansumg','moto','xiaomi', 'iphone']
#np.random.choice(demo_list,size=(3,3), p=[0.1,0.6,0.1,0.1,0.1])

4、HBOS

全名为：Histogram-based Outlier Score。它是一种单变量方法的组合，不能对特征之间的依赖关系进行建模，但是计算速度较快，对大数据集友好。其基本假设是数据集的每个维度相互独立。然后对每个维度进行区间(bin)划分，区间的密度越高，异常评分越低。

HBOS在全局异常检测问题上表现良好，但不能检测局部异常值。但是HBOS比标准算法快得多，尤其是在大数据集上。

HBOS算法流程：

1.为每个数据维度做出数据直方图。对分类数据统计每个值的频数并计算相对频率。对数值数据根据分布的不同采用以下两种方法：

静态宽度直方图：标准的直方图构建方法，在值范围内使用k个等宽箱。样本落入每个箱的频率（相对数量）作为密度（箱子高度）的估计。时间复杂度： O ( n ) O(n) O(n)
动态宽度直方图：首先对所有值进行排序，然后固定数量的 N k \frac{N}{k} kN个连续值装进一个箱里，其中N是总实例数，k是箱个数；直方图中的箱面积表示实例数。因为箱的宽度是由箱中第一个值和最后一个值决定的，所有箱的面积都一样，因此每一个箱的高度都是可计算的。这意味着跨度大的箱的高度低，即密度小，只有一种情况例外，超过k个数相等，此时允许在同一个箱里超过 N k \frac{N}{k} kN值。
时间复杂度： O ( n × l o g ( n ) ) O(n\times log(n)) O(n×log(n))

2.对每个维度都计算了一个独立的直方图，其中每个箱子的高度表示密度的估计。然后为了使得最大高度为1（确保了每个特征与异常值得分的权重相等），对直方图进行归一化处理。最后，每一个实例的HBOS值由以下公式计算：

H B O S ( p ) = ∑ i = 0 d log ⁡ ( 1 hist i ( p ) ) H B O S(p)=\sum_{i=0}^{d} \log \left(\frac{1}{\text {hist}_{i}(p)}\right) HBOS(p)=i=0∑dlog(histi(p)1)

推导过程：

假设样本p第 i 个特征的概率密度为 p i ( p ) p_i(p) pi(p) ，则p的概率密度可以计算为： P ( p ) = P 1 ( p ) P 2 ( p ) ⋯ P d ( p ) P(p)=P_{1}(p) P_{2}(p) \cdots P_{d}(p) P(p)=P1(p)P2(p)⋯Pd(p) 两边取对数： log ⁡ ( P ( p ) ) = log ⁡ ( P 1 ( p ) P 2 ( p ) ⋯ P d ( p ) ) = ∑ i = 1 d log ⁡ ( P i ( p ) ) \begin{aligned} \log (P(p)) &=\log \left(P_{1}(p) P_{2}(p) \cdots P_{d}(p)\right) =\sum_{i=1}^{d} \log \left(P_{i}(p)\right) \end{aligned} log(P(p))=log(P1(p)P2(p)⋯Pd(p))=i=1∑dlog(Pi(p)) 概率密度越大，异常评分越小，为了方便评分，两边乘以“-1”： − log ⁡ ( P ( p ) ) = − 1 ∑ i = 1 d log ⁡ ( P t ( p ) ) = ∑ i = 1 d 1 log ⁡ ( P i ( p ) ) -\log (P(p))=-1 \sum_{i=1}^{d} \log \left(P_{t}(p)\right)=\sum_{i=1}^{d} \frac{1}{\log \left(P_{i}(p)\right)} −log(P(p))=−1i=1∑dlog(Pt(p))=i=1∑dlog(Pi(p))1 最后可得： H B O S ( p ) = − log ⁡ ( P ( p ) ) = ∑ i = 1 d 1 log ⁡ ( P i ( p ) ) H B O S(p)=-\log (P(p))=\sum_{i=1}^{d} \frac{1}{\log \left(P_{i}(p)\right)} HBOS(p)=−log(P(p))=i=1∑dlog(Pi(p))1

5、Python中PyOD库生成toy example并调用HBOS实例

我们倾向于使用简单的方法，如箱形图，直方图和散点图来检测异常值。但是，专用异常值检测算法在处理大量数据并需要在较大数据集中执行模式识别的方法中非常有价值，如金融中的欺诈检测和网络安全中的入侵检测等应用

PyOD是一个可扩展的Python工具包，用于检测多变量数据中的异常值。它可以在一个详细记录API下访问大约20个离群值检测算法。
对pyod的介绍

import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
%matplotlib inline#%matplotlib具体作用是当你调用matplotlib.pyplot的绘图函数plot()进行绘图的时候，或者生成一个figure画布的时候，可以直接在你的python console里面生成图像。
import matplotlib.font_manager
from pyod.models.hbos import HBOS

#创建一个带有异常值的随机数据集并绘制它。
from pyod.utils.data import generate_data, get_outliers_inliers

#generate random data with two features
X_train, Y_train = generate_data(n_train=200,train_only=True, n_features=2)

# by default the outlier fraction is 0.1 in generate data function 
outlier_fraction = 0.1

# store outliers and inliers in different numpy arrays
x_outliers, x_inliers = get_outliers_inliers(X_train,Y_train)

n_inliers = len(x_inliers)
n_outliers = len(x_outliers)

#separate the two features and use it to plot the data 
F1 = X_train[:,[0]].reshape(-1,1)
F2 = X_train[:,[1]].reshape(-1,1)

# create a meshgrid 
xx , yy = np.meshgrid(np.linspace(-10, 10, 200), np.linspace(-10, 10, 200))

# scatter plot 
plt.scatter(F1,F2)
plt.xlabel('F1')
plt.ylabel('F2')

#将数据拟合到我们在字典中添加的模型，然后，查看模型如何检测异常值：
#set the figure size
plt.figure(figsize=(10, 10))

for i, (clf_name,clf) in enumerate(classifiers.items()) :
    # fit the dataset to the model
    clf.fit(X_train)

    # predict raw anomaly score
    scores_pred = clf.decision_function(X_train)*-1

    # prediction of a datapoint category outlier or inlier
    y_pred = clf.predict(X_train)

    # no of errors in prediction
    n_errors = (y_pred != Y_train).sum()
    print('No of Errors : ',clf_name, n_errors)

    # rest of the code is to create the visualization

    # threshold value to consider a datapoint inlier or outlier
    threshold = stats.scoreatpercentile(scores_pred,100 *outlier_fraction)

    # decision function calculates the raw anomaly score for every point
    Z = clf.decision_function(np.c_[xx.ravel(), yy.ravel()]) * -1
    Z = Z.reshape(xx.shape)

    subplot = plt.subplot(1, 2, i + 1)

    # fill blue colormap from minimum anomaly score to threshold value
    subplot.contourf(xx, yy, Z, levels = np.linspace(Z.min(), threshold, 10),cmap=plt.cm.Blues_r)

    # draw red contour line where anomaly score is equal to threshold
    a = subplot.contour(xx, yy, Z, levels=[threshold],linewidths=2, colors='red')

    # fill orange contour lines where range of anomaly score is from threshold to maximum anomaly score
    subplot.contourf(xx, yy, Z, levels=[threshold, Z.max()],colors='orange')

    # scatter plot of inliers with white dots
    b = subplot.scatter(X_train[:-n_outliers, 0], X_train[:-n_outliers, 1], c='white',s=20, edgecolor='k') 
    # scatter plot of outliers with black dots
    c = subplot.scatter(X_train[-n_outliers:, 0], X_train[-n_outliers:, 1], c='black',s=20, edgecolor='k')
    subplot.axis('tight')

    subplot.legend(
        [a.collections[0], b, c],
        ['learned decision function', 'true inliers', 'true outliers'],
        prop=matplotlib.font_manager.FontProperties(size=10),
        loc='lower right')

    subplot.set_title(clf_name)
    subplot.set_xlim((-10, 10))
    subplot.set_ylim((-10, 10))
plt.show()

异常检测——基于统计学方法(参数方法、非参数方法、HBOS、pyod库)