Bayes、KNN、PCA和异常检测基础

Bayes

  • 已知样本的某些特性,求解该样本属于某个类别的后验概率P(Y|X=x)

  • 先验概率、条件概率、后验概率
    先验概率:是指根据以往经验和分析得到的概率.
    后验概率:事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小

  • 贝叶斯定理:
    P(A|B)= P(A) * P(B|A) / P(B)

  • 理解:
    朴素贝叶斯是有训练数据学习联合概率分布P(X,Y),然后求得后验概率分布P(Y|X)。具体说就是 利用训练集学习条件概率和先验概率的估计,得到联合概率分布:
    P(X,Y) = P(Y) * P(X|Y)
    概率估计的方法是最大似然估计或者贝叶斯估计

  • 推导
    看手机图片

  • 拉普拉斯平滑
    用极大似然估计可能会出现要估计的概率为0的情况,可能使分类产生偏差,为解决零概率问题,引入参数lambda (该方法即贝叶斯估计)
    当lambda=1时,称为拉普拉斯平滑,也称加1平滑。

  • 优缺点
    优点:条件独立性鸡舍使条件概率的数量大量减少,简化了学习过程,易于实现;
    缺点:分类性能不一定很高

KNN

  • 原理:
    K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻居), 这K个实例的多数属于某个类,就把该输入实例分类到这个类中。
  • 特点:
    1)不具有显示的学习过程,仅仅利用训练集对特征空间划分,并将其作为分类的‘模型’
    2)由于不需要模型训练,训练时间复杂度为0,计算复杂度和训练集中文档数目成正比,即:如果训练集中文档总数为n,那么它的分类时间复杂度为o(n)
  • 基本要素
    k值的选择,距离度量(欧氏距离),分类决策规则
  • k值的选择
    k值过小,意味着整体模型变得复杂,容易过拟合;
    k值过打,意味着整体模型变得简单,缺点是学习的近似误差会增大;
    通常采用交叉验证来选取k值
  • 距离度量:
    欧氏距离
  • 分类决策规则:
    多数表决,即由输入实例的k个临近的训练实例中的多数类决定输入实例的类
  • 不足
    1)可能会忽略掉样本容量很小的类
    2)计算量大,对每一个待分类的样本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点(线性扫描法找k近邻,耗时,不推荐)。
  • K近邻法实现
    主要问题在于如何对数据集进行快速的k近邻搜索。
    推荐搜索方法:kd树
  • kd树(本质是二叉树
    kd树(K-dimension tree)是一种对k维空间中的实例点进行存储以便对其进行快速检索的树形数据结构。
    kd树是是一种二叉树,表示对k维空间的一个划分,构造kd树相当于不断地用垂直于座标轴的超平面将K维空间切分,构成一系列的K维超矩形区域。kd树的每个结点对应于一个k维超矩形区域。利用kd树可以省去对大部分数据点的搜索,从而减少搜索的计算量。

PCA

  • 降维
    PCA是一种降维技术,其做法是寻找最小均方误差下,最能代表原始数据的投影方法。改变了原有的特征空间。

  • 为什么正交?
    正交是为了数据有效性损失最小
    正交的一个原因是特征值的特征向量是正交的

  • PCA 优缺点
    优点:降低数据的复杂性,识别最重要的多个特征。
    缺点:不一定需要,且可能损失有用信息。适用数据类型:数值型数据

  • 步骤
    PCA的主要步骤有:去均值、求协方差、将协方差特征分解(奇异值分解)、将特征值从大到小排序、数据转换、重构数据。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章