【课程笔记】空间数据挖掘方法(机器学习)

一、绪论

机器学习VS数据挖掘

分类的过程

 

二、模型评估

评估方法

评估模型之留出法:简单粗暴,直接按2:1~4:1将数据集分为训练集:测试集。

评估模型之交叉验证法:将数据集分为k个互斥子集,一部分作为训练集,另一部分作为测试集,循环这个过程。常令k=10,进行十折交叉验证。使用全部样本,即为留一法。

评估模型之自助法:自助,有放回地采样。效果一般(吧),不常用(吧)。

评估指标

率(查得准不准?判为正例的样本有多少是准确的?)与查率(查得全不全?实际为真例的样本是不是都查出来了?)

二者互相矛盾,F值将它们同时考虑。

分类任务中,常用“截断点”将正例与反例分开。ROC曲线依次选择不同的“截断点”构成不同的分类器,预测,分别计算“真正率”(作为横轴)和“假正率”(作为纵轴),连接数据点,作曲线。

ROC曲线及其曲线下的面积AUC,用于度量分类器的排序性能。

如何计算待测样本属于某一类的概率?条件似然CLL

 

比较检验

分类器A的准确率80%,分类器A的准确率90%,就能直接下结论说A优于B?不能,因为测试性能≠泛化性能等等(详见下图里的三个√)

如成对双边t检验法(t检验、查表等),还有其他的检验方法,不介绍了,反正类似于概率统计里的那些假设检验方法。

 

三、线性学习

线性回归

x系列是各种属性值;w和b可通过最小二乘法进行估计。

 

广义线性回归

非线性函数

 

逻辑斯蒂回归

逻辑斯蒂回归不是“回归”,而是一种分类方法。逻辑斯蒂函数,可代替单位阶跃函数,将回归预测输出的数值转为0/1(以二分类问题为例)

 

多分类学习

 

 

 

 

九、无监督学习

无监督学习基础知识

 

二、K均值聚类(k-means)

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章