统计学习方法笔记,第一章,统计学系方法概论

这个博客系列是我复习李航博士的《统计学习方法》所做的笔记,其中一部分是笔记,一部分是自己的感悟和理解,可能有些理解不够准确,欢迎指正!


1.1 统计学习

(1)统计学习方法的三要素:模型策略算法,之后的章节对于每一种模型都是按照这三个角度进行分析


(2)学习的定义:通过执行某个过程改进性能,而统计学习则是运用数据和统计的方法进行改进,通过统计方法对数据进行学习,改进模型的性能。


(3)统计学习的基本假设:同类数据具有一定的统计规律性。我们通常用于建模的数据都是具有相同性质的同类数据,如人的身高体重等。我们一般默认数据是独立同分布的。


(4)统计学习的目标:

<1>学习什么样的模型(模型选择)

<2>如何学习模型(优化目标,损失函数,策略)


(5)对应关系

模型 —— 假设空间的集合

策略 —— 模型的评价标准,优化目标,损失函数,代价函数

算法 —— 达到优化目标的方法,如梯度下降等


1.2 监督学习

1.监督学习的假设:输入变量X与输出变量Y遵循联合概率分布P(X,Y),且 概率分布一定存在,是我们学习的对象。 我们假设数据都是由这个概率分布P(X,Y)独立同分布产生的。


1.3 统计学习三要素

1.3.1模型

模型决定了假设空间,假设空间包含了所有可能的条件分布。比如我们假设模型为一元线性函数,则所有满足y = ax + b (a,b属于R)就是假设空间。


1.3.2策略

1.策略是对于模型的评价标准,依照什么样的标准从假设空间中选择最合适的模型。举个不恰当的例子,,如果策略选择是让y最小,那就是让x = 0,当然实际情况不可能这么简单,哈哈。


2.损失函数度量了预测错误的程度,即预测值和真实值的不一致性。


3.风险函数是损失函数对整个样本空间的期望值,即


但是联合分布显然是未知的,是我们想要得到的。但是我们风险函数是我们的策略,也就是优化目标,既然其中的未知,那么就无法求了,怎么办呢?于是我们通常用经验风险代替风险函数,如下所示:


其中是所有样本点。

总言之,风险函数是关于联合分布的期望损失,经验风险是训练集上的平均损失

那么为什么可以这样替代呢?因为根据大数定律,当样本量N趋近于无穷大时,经验风险趋近于风险函数

但是,N趋近于无穷大这个条件一般不成立,所以需要矫正。


4.经验风险最小化和结构风险最小化

经验风险最小化就是使得经验风险最小,即


但是我们上面就提到了,N趋近于无穷大这个条件一般不成立,因此会产生过拟合,于是我们要采取结构风险最小化。


结构风险最小化就是正则化,目的就是为了防止过拟合而加入惩罚项。

因为从理论上来说,模型结构越复杂,就越容易降低经验经验风险,比如一元10次函数对于数据的拟合能力一定比一元一次强(很好理解,一元10次前9项为0就是一元一次,所以它包含了一元一次)。这样为了降低经验风险,我们会倾向于选择复杂的模型,但是复杂的模型通常泛化能力不好,因此我们要通过加入惩罚项来让模型倾向于选择简单的模型。


结构风险的定义:


其中是模型的复杂度,》=0是系数,我们最小化就是选择结构风险最小化策略。


1.3.3算法

算法是根据学习策略,从假设空间中选择最优模型的方法

通常都不会有解析解,因此采用数值方法求全局最优解。一般有梯度下降,牛顿法等。


1.4模型评估与模型选择

1.4.1 训练误差与测试误差

我们的学习更侧重测试误差,它反映了对于未知数据的预测能力,即泛化能力。

1.4.2过拟合与模型选择
一般来说,模型复杂度越高,对于训练集的拟合能力就越强,因此如果一味追求对训练集的拟合,就会倾向于选择非常复杂的模型,从而可能学习到了一些噪声信息。模型的训练误差很小,但是测试误差很大,但是我们之前说过,测试误差才是更重要的,因为它反映了模型的泛化能力。

因此,在学习时要防止过拟合,就要选择复杂度适当的模型,有两种方法:正则化和交叉验证。

1.5正则化与交叉验证
1.5.1正则化
正则化就是结构风险最小化,即最小化

通常采用L1和L2范数。
带L2范数的结构风险为

带L1范数的结构风险为


因此当w的参数较大的时候,后一项变大,那么为了使L(w)最小,模型倾向于选择较小的参数w,这样就降低了复杂度。

1.7生成模型与判别模型


生成模型:通过联合概率分布,求出条件概率分布

典型的有:朴素贝叶斯和隐马尔可夫模型
特点:收敛快,可以解决隐变量问题,容量大时可以更快收敛于真实模型
判别模型:直接学习条件概率分布
典型有:knn,LR,SVM,神经网络等
特点:学习准确率高,可以直接定义特征,可以简化学习问题。

区别:是否是通过联合概率分布求模型

1.8 分类问题


评价指标:准确率(Accura),精确率(precision),召回率(recall)

TP ——将正类预测为正类数
FN —— 将正类预测成负类数
FP —— 将负类预测成正类数
TN —— 将负类预测成正类数

记忆:第二个字母是预测结果,第一个字母是正确还是错误。

精确率(precision)



即预测为正的里面有多少是正的
信息检索里也称为查准率

查准率=检索出的相关信息量 / 检索出的信息总量

召回率(recall)



即样本所有的正的里面有多少被预测出来了
信息检索里也称为查全率

查全率=检索出的相关信息量 / 系统中的相关信息总量

1.9 标注问题


标注问题是分类问题的推广,它的输入和输出都是序列,因此它的输入具有上下文关系,比如文本。
常用方法:隐马尔科夫,条件随机场

1.10 回归问题


回归问题的输出都是连续值,而分类是离散值。回归问题等价于函数拟合:选择一条函数曲线使其能很好地拟合已知数据和预测未知数据。

回归学习最常用的损失函数:平方损失函数,此时可以用最小二乘法求解。

回归学习很多时候可以转化为分类问题,比如对电影评分,我们可以用评星代替评分,通常分类的效果更好。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章