这个博客系列是我复习李航博士的《统计学习方法》所做的笔记,其中一部分是笔记,一部分是自己的感悟和理解,可能有些理解不够准确,欢迎指正!
1.1 统计学习
(1)统计学习方法的三要素:模型、策略和算法,之后的章节对于每一种模型都是按照这三个角度进行分析
(2)学习的定义:通过执行某个过程改进性能,而统计学习则是运用数据和统计的方法进行改进,通过统计方法对数据进行学习,改进模型的性能。
(3)统计学习的基本假设:同类数据具有一定的统计规律性。我们通常用于建模的数据都是具有相同性质的同类数据,如人的身高体重等。我们一般默认数据是独立同分布的。
(4)统计学习的目标:
<1>学习什么样的模型(模型选择)
<2>如何学习模型(优化目标,损失函数,策略)
(5)对应关系
模型 —— 假设空间的集合
策略 —— 模型的评价标准,优化目标,损失函数,代价函数
算法 —— 达到优化目标的方法,如梯度下降等
1.2 监督学习
1.监督学习的假设:输入变量X与输出变量Y遵循联合概率分布P(X,Y),且 概率分布一定存在,是我们学习的对象。 我们假设数据都是由这个概率分布P(X,Y)独立同分布产生的。
1.3 统计学习三要素
1.3.1模型
模型决定了假设空间,假设空间包含了所有可能的条件分布。比如我们假设模型为一元线性函数,则所有满足y = ax + b (a,b属于R)就是假设空间。
1.3.2策略
1.策略是对于模型的评价标准,依照什么样的标准从假设空间中选择最合适的模型。举个不恰当的例子,,如果策略选择是让y最小,那就是让x = 0,当然实际情况不可能这么简单,哈哈。
2.损失函数度量了预测错误的程度,即预测值和真实值的不一致性。
3.风险函数是损失函数对整个样本空间的期望值,即
但是联合分布显然是未知的,是我们想要得到的。但是我们风险函数是我们的策略,也就是优化目标,既然其中的未知,那么就无法求了,怎么办呢?于是我们通常用经验风险代替风险函数,如下所示:
其中是所有样本点。
总言之,风险函数是关于联合分布的期望损失,经验风险是训练集上的平均损失。
那么为什么可以这样替代呢?因为根据大数定律,当样本量N趋近于无穷大时,经验风险趋近于风险函数。
但是,N趋近于无穷大这个条件一般不成立,所以需要矫正。
4.经验风险最小化和结构风险最小化
经验风险最小化就是使得经验风险最小,即
但是我们上面就提到了,N趋近于无穷大这个条件一般不成立,因此会产生过拟合,于是我们要采取结构风险最小化。
结构风险最小化就是正则化,目的就是为了防止过拟合而加入惩罚项。
因为从理论上来说,模型结构越复杂,就越容易降低经验经验风险,比如一元10次函数对于数据的拟合能力一定比一元一次强(很好理解,一元10次前9项为0就是一元一次,所以它包含了一元一次)。这样为了降低经验风险,我们会倾向于选择复杂的模型,但是复杂的模型通常泛化能力不好,因此我们要通过加入惩罚项来让模型倾向于选择简单的模型。
结构风险的定义:
其中是模型的复杂度,》=0是系数,我们最小化就是选择结构风险最小化策略。
1.3.3算法
算法是根据学习策略,从假设空间中选择最优模型的方法。
通常都不会有解析解,因此采用数值方法求全局最优解。一般有梯度下降,牛顿法等。