《统计学习方法》读书笔记——第一章统计学习方法概论

总结:本章主要是介绍一些基本的概念,起到统揽全书的作业。

1.1 统计学习

统计学习是基于数据构建概率模型并运用模型对数据进行预测分析的学科。

统计学习由监督学习、非监督学习、半监督学习、强化学习等组成。这本书主要讨论监督学习。

1.2 监督学习

输入空间:所有可能的输入值

输出空间:所有可能的输出值

假设空间:简单说就是可能的模型的集合

联合概率分布:P(x,y)表示。举个例子,打靶的时候,命中点(x,y)的概率就是P(x,y)

监督学习又分为回归问题、分类问题、标注问题。简单的说,回归问题是输入输出都是连续变量的问题,分类问题是输入可连续也可离散,但输出是离散的问题,标注问题是输入输出都是序列的问题。

监督学习的过程就是选择一个模型,在训练集下产生输出f(x)使得f(x)尽可能接近训练集中数据对应的输出结果y,学习系统不断的调整模型,最终使得f(x)与y的差达到最小。

1.3 模型、策略、算法三要素

统计学习三要素:模型、策略、算法

我的理解:模型对应着函数,策略对应着代价函数或者说经验风险,算法对应着优化方式(如梯度下降等)

损失函数常用的有这么四类:

                1)0-1损失函数:  

                2)平方损失函数:

                3)绝对损失函数:

                4)对数损失函数:

这里有一个逻辑问题:我们要使得损失函数值最小,就是要使得损失函数的期望最小,而损失函数的期望计算要用到P(x,y),联合概率分布是未知的(如果知道联合概率分布的话就不用学习了,直接用概率分布就可以算出结果)。因此理想状态下减少损失函数的期望是不可能实现。这时候人们一般使用平均损失(经验风险)来代替期望损失。在数据量足够足够大的情况下,二者趋近于相同,但在数据量有限的情况下,就会产生一系列的问题,因此需要矫正。(机器学习中的正则化、欠拟合、过拟合等等问题其实都来源于此)

两种策略:经验风险最小化和结构风险最小化(正则化)

1.4、1.5 模型评估与选择、正则化

这里主要就是介绍过拟合(模型过于复杂而数据量又相对少,导致模型在训练集上表现良好但泛化能力差)、正则化(在经验风险项后面加上一个正则化项,加上的项可以使W的L1范数也可以是L2范数)

L1范数:向量各元素绝对值之和

L2范数:向量各元素平方和开根号

交叉验证:

               1)简单交叉验证:将数据集分为训练和测试两部分(如7:3)训练集训练,测试集评价模型

               2)S折交叉验证:将数据集分为S份,S-1份用于训练,1份用于测试,重复进行。当S=N时,就是留一交叉验证

1.6 泛化能力

现实中一般通过测试误差来评价学习方法的泛化能力

1.8 分类问题

评价分类器的指标有精确率、召回率、F1 Score。

精确率:简单的说就是你说“正”的里面有多少是真正的“正”。

召回率:简单的说就是所有“正”的里面有多少你说了是“正”

F1值:精确率和召回率的调和平均值

1.10 回归问题

可以看做是函数拟合

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章