人工智能教程 - 学科基础课程2.6 - 机器学习导论 15.异常检测,密度估计,高斯分布,算法,实数评价法

异常检测

Anomaly detection

举个飞机制造厂商的例子

在这里插入图片描述
其实类似于生产线的QA 质量控制测试

密度估计

  • 小于阈值,异常点
  • 大于阈值,正常

在这里插入图片描述

应用较为广泛的实际上有欺诈异常检测,也有制造业欺诈

在这里插入图片描述

高斯分布 Gaussian distribution

也叫正态分布 normal distribution
方差 variance
在这里插入图片描述

高斯分布例子

在这里插入图片描述

参数估计

在这里插入图片描述

样本的密度估计

density estimation
在这里插入图片描述

异常检测算法

在这里插入图片描述

  1. 选择特征量
  2. 参数拟合
  3. 根据新样本计算样本的概率

异常检测算法实例

在这里插入图片描述

实数评价法的重要性

The importance of real-number evaluation

当你用某个应用开发一个及其学习算法时,你常常要进行一系列的选择。比如说,选择用什么样的特征,等等。当你找到某种评估方法,直接返回一个实数,来评估你的算法的好坏,往往会容易很多。比如,现在有一个新特性,你需要决定该不该把这个特征考虑进来?

when developing a learning algorithm,making decisions is much easier if we have a way of evaluating our learning algorithm.

要定义一个交叉验证集 Cross validation set 和测试集 Test set,通过两个集合来用于评估这个异常检测算法。

我们假设在交叉验证集和测试集中有一些样本已知是异常的样本即y = 1

飞行器例子

在这里插入图片描述

10000 的数据,可分配给异常数据2-50个

评估算法

在这里插入图片描述

  1. 估计特征的平均值和方差,构建p(x)概率模型

  2. 根据阀值,对交叉检验集/测试机进行预测其数据是否异常

  3. 几个评估的指标:
    1)true positive,false positive,false negative,true negative
    2)准确率 prediction 或召回率 Recall
    3)F1值,实数,可以总结和反应精确度

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章