HCIE-BigData学习笔记-支持向量机

1、华为MLS分类模型中数据的查看
分类模型评估输出结果数据
分类模型评估输出结果数据
使用工作流流程(含有数据拆分节点):
数据总数:45211条,其中,训练数据:29892条,预测数据:15319条
预测结果输出数据:15319条
分类模型评估输出结果数据:15319条
分类模型评估可视化混淆矩阵数据:1687条,占实际预测数据量约11%
1.设置阈值=0.5,根据预测结果统计的混淆矩阵为:
真阳性 13541(0+0+4394+9014+133)
伪阴性0(0+0+0+0+0)
伪阳性1778(0+0+293+1420+65)
真阴性0(0+0+0+0+0)
2.设置阈值=0.7,根据预测结果统计的混淆矩阵为:
真阳性 4394(0+0+4394)
伪阴性9147(9014+133+0+0+0+0+0)
伪阳性293(0+0+293)
真阴性1485(1420+65+0+0+0+0+0)
故,分类模型评估的的查看矩阵如下:

真阳 伪阳
伪阴 真阴

可视化与实际数据条数不一致是因为可视化采用的只有部分数据

2、要将所要结果输出为目标

3、惩罚系数
当我们构建出最大超平面的时候,本来是输入属性,经过判断之后,它是属于不存款的一边,但是真实是存款的,我们就可以改变惩罚系数来将本来落在不存款一边的数据变成存款的,惩罚系数越大,拟合的越多,参数调整的好,可以解决欠拟合(over-fitting )问题,调整太多,可能出现过拟合(under-fitting)

4、欠拟合
欠拟合指的是模型在训练和预测时表现都不好的情况。一个欠拟合的机器学习模型不是一个良好的模型并且由于在训练数据上表现不好这是显然的。欠拟合通常不被讨论,因为给定一个评估模型表现的指标的情况下,欠拟合很容易被发现。矫正方法是继续学习并且试着更换机器学习算法。

5、过拟合
过拟合指的是模型对于训练数据拟合程度过当的情况。当某个模型过度的学习训练数据中的细节和噪音,以至于模型在新的数据上表现很差,我们称过拟合发生了。这意味着训练数据中的噪音或者随机波动也被当做概念被模型学习了。而问题就在于这些概念不适用于新的数据,从而导致模型泛化性能的变差。过拟合更可能在无参数非线性模型中发生,因为学习目标函数的过程是易变的具有弹性的。同样的,许多的无参数器学习算法也包括限制约束模型学习概念多少的参数或者技巧。例如,决策树就是一种无参数机器学习算法,非常有弹性并且容易受过拟合训练数据的影响。这种问题可以通过对学习过后的树进行剪枝来解决,这种方法就是为了移除一些其学习到的细节。

6、ROC
受试者工作特征曲线 (receiver operating characteristic curve,简称ROC曲线),又称为感受性曲线(sensitivity curve)。得此名的原因在于曲线上各点反映着相同的感受性,它们都是对同一信号刺激的反应,只不过是在两种不同的判定标准下所得的结果而已。受试者工作特征曲线就是以假阳性概率(False positive rate)为横轴,真阳性(True positive rate)为纵轴所组成的座标图,和受试者在特定刺激条件下由于采用不同的判断标准得出的不同结果画出的曲线。1

https://www.cnblogs.com/gatherstars/p/6084696.html

7、AUC解释
ROC 曲线下的面积就是 AUC 面积,所以 ROC 曲线约拱,AUC 面积越大,AUC 的面积就是真阳率乘以伪阳率。
AUC=1,完美分类器,采用这个预测模型时,不管设定什么阈值都能得出完美预测。绝大多数预测的场合,不存在完美分类器。
0.5<AUC<1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。
AUC=0.5,跟随机猜测一样(例:丢铜板),模型没有预测价值。
AUC<0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测,因此不存在。

8、各率解释
准确率:(真阳+真阴) /样本总数
召回率:真阳/真阳样本总数
精确率:真阳/(真阳+伪阳)


  1. ROC曲线最早是运用在军事上,后来逐渐运用到医学领域。相传在第二次世界大战期间,雷达兵的任务之一就是死死地盯住雷达显示器,观察是否有敌机来袭。理论上讲,只要有敌机来袭,雷达屏幕上就会出现相应的信号,但是实际上,有时如果有飞鸟出现在雷达扫描区域时,雷达屏幕上有时也会出现信号。这种情况令雷达兵烦恼不已:如果过于谨慎,凡是有信号就确定为敌机来袭,显然会增加误报风险;如果过于大胆,凡是信号都认为飞鸟,又会增加漏报的风险。每个雷达兵都竭尽所能地研究飞鸟信号和飞机信号之间的区别,以便增加预报的准确性。但问题在于,每个雷达兵都有自己的判别标准,有的雷达兵比较谨慎,容易出现误报;有的雷达兵则比较胆大,容易出现漏报。为了研究每个雷达兵预报的准确性,雷达兵的管理者汇总了所有雷达兵的预报特点,特别是他们漏报和误报的概率,并将这些概率画到一个二维座标里面。这个二维座标的纵座标为敏感性,即在所有敌机来袭的事件中,每个雷达兵准确预报的概率。而横座标则特1-特异性,表示了在所有非敌机来袭信号中,雷达兵预报错误的概率。由于每个雷达兵的预报标准不同,且得到的敏感性和特异性的组合也不同。将这些雷达兵的预报性能进行汇总后,雷达兵管理员发现他们刚好在一条曲线上,这条曲线就是我们经常在医学杂志上看见的ROC曲线。 ↩︎

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章