第一章 统计学习方法概论

1、统计学习方法

统计学习方法是基于数据构建统计模型从而对数据进行预测和分析、统计学习方法由监督学习非监督学习、半监督学习和强化学习等组成。主要讨论监督学习

统计学习方法步骤:

有限训练集合
确定学习模型集合(模型选择)
确定模型选择准则(策略,损失函数确定)
实现求解最优化模型算法(算法,梯度下降算法选择)
最优化模型选择
利用模型对数据进行预测分析

统计学习的三要素:模型、策略和算法

2、监督学习

监督学习:Supervised Learning的数据是有特征(feature)和标签(label)的。机器可以寻找到标签和特征之间的联系,当面对只有特征而没有标签的数据时,可以判断出标签。

非监督学习:Unsupervised Learning的数据只有特征(feature),没有标签(label)。

半监督学习:Semi-Supervised Learning中使用的数据,有一部分是标记过的,而大部分是没有标记的。因此和监督学习相比,半监督学习的成本较低,但是又能达到较高的准确度。

强化学习:强化学习也是使用未标记的数据,但是可以通过某种方法知道你是离正确答案越来越近还是越来越远(即奖惩函数)。可以把奖惩函数想象成正确答案的一个延迟的、稀疏的形式。在监督学习中,能直接得到每个输入的对应的输出。强化学习中,训练一段时间后,你才能得到一个延迟的反馈,并且只有一点提示说明你是离答案越来越远还是越来越近。


3、统计学习三要素

模型、策略、算法

模型就是要学习的条件分布和决策函数

策略学习准则,引入损失函数,损失函数越小模型越好

算法,求解最优解

4、模型评估与模型选择

训练误差和测试误差,测试误差反映对未知数据集的预测能力(泛化能力),是学习中的重要概念。

模型复杂度要与问题相当,否则会造成训练误差小,测试误差大的现象。

5、正则化与交叉验证

正则化,正则化一般是模型复杂度的单调递增函数,模型越复杂正则化值越大。

交叉验证

简单交叉验证:划分验证集和训练集

s折交叉验证:切分s个数据集,s-1做训练,1做测试。最终选s次中误差最小的一个

6、泛化能力

对未知数据的预测能力,通过测试误差验证。

泛化误差就是学习到的模型的期望风险。

经验风险(训练误差)小于期望风险(测试误差)

7、生成模型和判别模型

生成模型学习联合概率分布

判别模型给输入预测输出

8、分类问题、标注问题、回归问题

准确率召回率

回归问题与分类问题本质上都是要建立映射关系:
f(x)→y, x∈A,y∈B

回归问题,其输出空间B是一个度量空间,即所谓“定量”。也就是说,回归问题的输出空间定义了一个度量,去衡量输出值与真实值之间的“误差大小”。例如:预测一瓶700毫升的可乐的价格(真实价格为5元)为6元时,误差为1;预测其为7元时,误差为2。这两个预测结果是不一样的,是有度量定义来衡量这种“不一样”的。(于是有了均方误差这类误差函数)。

分类问题,其输出空间B不是度量空间,即所谓“定性”。也就是说,在分类问题中,只有分类“正确”与“错误”之分,至于错误时是将Class 5分到Class 6,还是Class 7,并没有区别,都是在error counter上+1。

在实际操作中,我们确实常常将回归问题和分类问题互相转化(分类问题回归化:逻辑回归;回归问题分类化:年龄预测问题——>年龄段分类问题),但这都是为了处理实际问题时的方便之举,背后损失的是数学上的严谨性。

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章