吴恩达机器学习-Chapter 16 异常检测

目的:介绍无监督学习异常检测算法,主要是用高斯分布(正态分布)数据模型

1. Lesson 123 问题动机

    1. 目的:解释异常检测的背景也应用场景
    2. 内容:给到一定的数据集,无监督训练并建立模型(p(x),高斯分布),当p(x)<ℇ时,代表异常
    3. 应用场景:交易欺诈、网站登录异常、服务器集群监控等

2. Lesson 124 高斯分布

    1. 目的:介绍高斯分布(正态分布)
    2. 内容:
      1. 实数集x∈R,如果说x服从均值μ,方差𝜎2的正太分布,则记为:x~N(μ,𝜎2),其中μ空值曲线的中心,𝜎^2空值宽度


      2. 高斯分布公式

      3. 标准正太分布,μ=0,,𝜎=1

      4. 均值μ、方差𝜎^2公式

3. Lesson 125 算法

    1. 目的:介绍如何将高斯分布应用于算法,以及如何开发

    2. 内容:∑表示累积相加,∏表示累积相乘,如果p(x)<ℇ表示x异常

4. Lesson 126 开发和评估异常检测

    1. 目的:评估异常检测算法
    2. 内容:
      1. 最好是有正样本的数据集,并且将正样本分散到验证集和测试集中


      2. 异常检测本身也是一个非对称数据集,在具体评估时使用召回率(R=正确预测分类数量/实际正样本数量,评估覆盖度)、准确率(P=正确预测分类数量/预测正样本数量,评估准确性)、F值(2(PR)/(P+R) ,F值越大越好)指标进行评估

5. Lesson 127 异常检测与监督学习

    1. 目的:解释异常检测和监督学习的区别和不同应用场景
    2. 内容
      1. 当正样本数量极少,负样本数量极多(即非对称数据集)时建议使用异常检测算法,且正样本的异常情况不好预测
      2. 当数据集同时包括了大量正负样本时,可以使用监督学习

6. Lesson 128 选择要使用的特征

    1. 目的:如何选择或设计异常检测算法的特征变量
    2. 内容:
      1. 首先画出x的分布图,看是否服从正太分布,如果不服从,可以用使用log(x+c)等函数使得x_new服从正太分布



      2. 误差分析,通过误差分析找出异常值,并人工检查看能否发现新的特征,比如衍生变量(x1/x2等)

7. Lesson 129 多变量高斯分布

    1. 目的:介绍原始多元分布的延伸,多元高斯分布
    2. 内容:
      1. 存在一种情况是单个独立特征服从高斯分布,并不异常,但是组合起来就明显异常,这个时候就需要用到多变量高斯分布



      2. 多元高斯分布公式



8. Lesson 130 使用多变量高斯分布的异常检测

    1.目的:讲解多元高斯分布算法公式
    2.内容
      1.具体公式已经放到上图中

      2.原始模型与多元模型选择场景,多元模型计算量较大(特别是特征变量多的时候),原始模型通过衍生特征一定程度上解决上面的问题
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章