统计学习方法学习笔记1

第一章 统计学习方法概论
1.1
1.统计学习的特点:统计学习是计算机基于数据构建概率统计模型,并运用模型对数据进行预测和分析的一门学科,统计学习也称为统计机器学习。
2.统计学习的对象:数据。关于数据的基本假设是同类数据具有一定的统计规律性。
3.统计学习的目的:对数据进行预测和分析。统计学习总的目标就是学习什么样的模型和如何学习模型。
4.统计学习的方法:监督学习,无监督学习,半监督学习,强化学习等。模型–策略–算法。有限个训练集–》确定所有可能模型的假设空间–》确定模型的准则,即策略,选择一个最优模型–》实现求解最优模型的算法。

1.2 监督学习
1.2.1
1.输入实例的特征向量。
在这里插入图片描述
2.多个输入变量中的第i个
在这里插入图片描述
3.训练集通常表示为
在这里插入图片描述
4.输入变量和输出变量均为连续的为回归问题;输出变量为有限个离散变量的为分类问题;输入变量和输出变量均为变量序列的为标注问题。
5.假设空间:模型属于输入空间到输出空间模型的集合,这个集合就是假设空间。监督学习的模型可以是概率模型,也可以是非概率模型。概率模型:概率分布P(Y|X) 非概率模型:决策函数y=f(x)

1.2.2
1.监督学习分为学习和预测两个过程。
在这里插入图片描述
一个具体的模型,如y=f(x),对于一个输入(x1,y1),可产生一个f(x1),y1和f(x1)之间的差异越小越好。

1.3统计学习三要素
统计学习方法=模型+策略+算法
1.3.1 模型
在监督学习过程中,模型就是所要学习的条件概率分布或者决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。用决策函数表示模型为非概率模型;用条件概率分布表示的模型为概率模型。
1.3.2 策略
有了模型的假设空间,统计学习接着考虑时按照什么样的准则学习或选择最优的模型。统计学习策略所要做的就是在模型假设空间中选择一个最优的模型。
1.损失函数和风险函数
用损失函数来度量训练集中预测值f(X)和真实值Y之间差异,也可以说时预测的错误程度,记作L(Y,f(X))
统计学习常用的损失函数有以下几种:
在这里插入图片描述
损失函数值越小,模型就越好;模型的输入输出X Y遵循联合分布P(X,Y),所以损失函数的期望为:
在这里插入图片描述
称为风险函数或者期望损失。

学习的目标就是选择期望损失最小的模型。但是呢这个联合分布P(X,Y)时未知的,所以期望损失是无法直接计算出来的,如果已经知道联合分布P(X,Y)了,也就不需要学习了。所以用另外一个指标来评估—经验风险或者经验损失:
给定一个训练数据集:
在这里插入图片描述
模型f(X)关于训练数据集的平均损失称为经验风险或经验损失。
在这里插入图片描述
根据大数定律,当样本容量N趋于无穷时,经验风险趋于期望风险。但是样本数量往往没那么大,所以用经验风险估计期望风险常常不太理想,要对经验风险进行一定的矫正:关系到监督学习的两个基本策略,经验风险最小化和结构风险最小化。

2.经验风险最小化和结构风险最小化。
A.经验风险最小化
经验风险最小化的策略认为,经验风险最小的模型就是最优模型,按照这个策略,求解经验风险函数最小化问题就是求解最优化的问题:
在这里插入图片描述
其中F是假设空间,在假设空间中找到经验风险最小的模型实例。
极大似然估计就是经验风险最小化的一个例子,当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化等价于极大似然估计。

B.结构风险最小化是为了防止过拟合而提出的策略,等价于正则化。
结构风险是在经验风险基础上加上表示模型复杂度的正则化项或罚项。结构风险定义:
在这里插入图片描述
J(f)表示模型的复杂度,模型越复杂,J(f)越大,模型越简单,J(f)越小。也就是说复杂度表示了对复杂模型的惩罚。

贝叶斯估计中的极大后验概率估计就是结构风险最小化的一个例子。当模型是条件概率分布,损失函数是对数损失函数,模型复杂度由模型先验概率表示时,结构风险最小化就等价于最大后验概率估计。
结构风险最小化认为结构风险最小的模型是最优模型:
在这里插入图片描述

1.3.3算法
统计学习的问题归结为最优化的问题,统计学习算法称为求解最优化问题的算法–目标是高效的找到全局最优解。

1.4模型评估和模型选择
1.4.1训练误差和测试误差
测试误差反应了学习方法对未知的测试数据集的预测能力,是学习中的重要概念。通常将学习方法对未知数据的预测能力称为泛化能力。
1.4.2过拟合和模型选择
过拟合:如果一味的提高对训练数据的预测能力,所选的模型的复杂度(如参数个数)则往往比真模型更高,这种现象是过拟合。过拟合是指学习时所选择的模型包含的参数过多,以至于这一模型对已知数据的预测很好而对未知数据的预测很差。

下面举例说明:
例:假设给定训练数据集:在这里插入图片描述
有N个样本,多项式拟合的任务是假设给定数据由M次多项式函数生成,选择最有可能产生这些数据的M次多项式函数。即在假设空间中选择一个对已知数据和未知数剧都有很好预测能力的M次多项式。
假设给定如下图的10个数据点,用0-9次多项式函数对数据进行拟合。
在这里插入图片描述
设M次多项式为:在这里插入图片描述
然后求经验风险最小:
在这里插入图片描述
把M次多项式带入经验风险函数:
在这里插入图片描述
对wj(j为下标)求偏导并令偏导为0:
在这里插入图片描述
于是求得了多项式的系数w。
选择模型时,不仅要考虑对已知数据的预测能力,还要考虑对未知数据的预测能力。从图中可以看出来,随着多项式次数的(模型复杂度)的增加,训练误差会减少,直至趋近于0,但是测试误差却不如此,测试误差先减小,后增加。
在这里插入图片描述
为了防止过拟合,选择最优的模型,要选择合适的模型复杂度,以达到使测试误差最小的目的,下面介绍两种常用的模型选择方法:正交化和交叉验证。

1.5 正则化和交叉验证
模型选择的典型方法:正则化。正则化时结构风险最小化策略的实现–在经验风险上加一个正则项或罚项。
在这里插入图片描述
第一项是经验风险,第二项是正则化项。正则化项是复杂度的单调递增函数,即复杂度越大,正则化项越大, λ>=0为调整两者之间关系的系数。
正则化项可以取不同的形式,在回归问题中,损失函数是平方损失,正则化项可以是系数向量w的2范数(范数的概念)
在这里插入图片描述
正则化的作用是选择经验风险和模型复杂度同时较小的模型。
正则化符合奥卡姆剃刀原理(什么是奥卡姆剃刀原理:如无必要,勿增实体)–能够很好的预测已知和未知数据并且很简单的模型才是最好的。
从贝叶斯估计的角度来看,正则化项就是先验概率。

另一种模型选择的方法是交叉验证。
简单交叉验证:随机将数据分为两部分,一部分训练集,一部分测试集。
S折交叉验证:将数据随机分为S个互不相交,大小相同的子集,S-1个子集进行模型训练,1个子集进行测试,可以重复进行S次,最后选出S次中平均测试误差最小的模型。
留一交叉验证:是S折交叉验证的特殊形式,S=N,N是给定数据集的容量。

1.6 泛化能力
1.6.1泛化误差
学习方法的泛化能力是指该方法学习到的模型对未知数据的预测能力。泛化误差的定义:
在这里插入图片描述
其实泛化误差就是所学习到模型的期望风险。

1.6.2泛化误差上届
学习方法的泛化能力分析往往是通过研究泛化误差的概率上届进行的,简称为泛化误差上届。
对二类分类问题,当假设空间是有限个函数的集合F={f1,f2…fd}时,对任意一个函数f属于F,至少已概率1-δ,以下不等式成立。
在这里插入图片描述
其中,
在这里插入图片描述
N为样本个数,d为模型空间复杂度。
证明:会用到Hoeffding不等式,这里不做证明了。

训练集上考虑的是训练误差,测试集上考虑的是泛化误差。
从泛化误差上界公式可以看出出来如下性质:
1)训练误差越小,则泛化误差越小;2)样本容量N越大,则训练误差与泛化误差越接近;3)假设空间中包含的函数越多,则泛化误差上界越大。

1.7生成模型和判别模型
生成模型:由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型
在这里插入图片描述
典型的生成模型有:朴素贝叶斯法,隐马尔科夫模型

判别模型:由数据直接学习决策函数f(X)或者条件概率分布P(X|Y)为预测的模型。
典型的判别模型有:k近邻法,感知机,决策树,逻辑斯蒂回归模型,最大熵模型,支持向量机,提升方法,条件随机场等。

1.8分类问题
当输出变量Y为有限个离散值时,预测问题便成为分类问题,这时输入变量X可以是离散的,也可以是连续的。
分类器:监督学习从数据中学习一个分类模型或分类决策函数,称为分类器。分类的类别有多个时,称为多分类。
分类问题过程:
在这里插入图片描述
1.9标注问题
可以认为标注问题是分类问题的一个推广,标注问题又是更复杂的结构预测的简单形式。输入是一个观测序列,输出是一个标注序列或状态序列。
标注问题过程:
对输入标记序列找出相应的输出标记序列。
对一个观测序列:
在这里插入图片描述
找到一个条件概率P
在这里插入图片描述在这里插入图片描述
最大的标记序列:
在这里插入图片描述
整个过程为:
在这里插入图片描述
1.10回归问题
回归问题用于预测输入变量(自变量)和输出变量(因变量)之间的关系。
回归问题按照输入变量的个数分为一元回归和多元回归;按照输入变量和输出变量之间的关系的类型即模型类型,分为线性回归和非线性回归。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章