再学花书----chapter5机器学习基础

pdf: Page115~Page 144

机器学习本质上属于应用统计学,更多地关注于如何用
计算机统计地估计复杂函数,不太关注为这些函数提供置信区间
? 学习算法中的学习是什么意思
对于某类任务 T(target) 和性能度量P(performance measurement) ,一个计算机程序被认为可以从经验 E (experience)中学习是指,通过经验 E 改进后,它在任务 T 上由性能度量 P 衡量的性能有所提升

样本: 我们从某些希望机器学习系统处理的对象或事件中收集到的已经量化的 特征(feature)的集合。我们通常会将样本表示成一个向量 x ∈ Rn其中向量的每一个元素 xi是一个特征。 例如,一张图片的特征通常是指这张图片的像素值。

? 机器学习可以解决哪些任务
1:分类
2:回归: 在这类任务中,计算机程序需要对给定输入预测数值。为了解决这个任务,学习算法需要输出函数 f : Rn → R。除了返回结果的形式不一样外,这类问题和分类问题是很像的, 结果一个是离散的一个是连续的
3:转录: 这类任务中,机器学习系统观测一些相对非结构化表示的数据,并转录信息为离散的文本形式。例如,光学字符识别要求计算机程序根据文本图片返回文字序列(ASCII 码或者 Unicode 码)。
4:机器翻译
5:结构化输出: 例如 在为图片添加描述的任务中,计算机程序观察到一幅图,输出描述这幅图的自然语言句子,这类任务被称为结构化输出任务是因为输出值之间内部紧密相关。例如,为图片添加标题的程序输出的单词必须组合成一个通顺的句子。
6:异常检测: 在这类任务中,计算机程序在一组事件或对象中筛选,并标记不正常或非典型的个体

本书中的大部分学习算法可以被理解为在整个 数据集(dataset)上获取经验。

? 有监督和无监督

训练含有很多特征的数据集,一个给定了标签(target/label),一个没有给定标签。
无监督学习涉及到观察随机向量 x 的好几个样本,试图显式或隐式地学习出概率分布 p(x),或者是该分布一些有意思的性质;
监督学习包含观察随机向量 x 及其相关联的值或向量 y,然后从 x 预测 y,通常是估计 p(y | x), 有条件和无条件
有监督和无监督之间的相关转化
在这里插入图片描述
在这里插入图片描述

线性回归: 将向量 x ∈ Rn 作为输入,预测标量 y ∈ R 作为输出。线性回归的输出是其输入的线性函数。令 yˆ 表示模型预测 y 应该取的值。我们定义输出为

在这里插入图片描述
其中 w ∈ Rn 是 参数(parameter)向量。

均方误差
在这里插入图片描述
决定机器学习算法效果是否好的因素:

  1. 降低训练误差。
  2. 缩小训练误差和测试误差的差距。

这两个因素对应机器学习的两个主要挑战: 欠拟合过拟合。欠拟合是指模型不能在训练集上获得足够低的误差。而过拟合是指训练误差和和测试误差之间的差距太大
用多项式来解释欠拟合和过拟合问题

模型的容量是指其拟合各种函数的能力。容量低的模型可能很难拟合训练集。容量高的模型可能会过拟合,因为记住了不适用于测试集的训练集性质。
奥卡姆剃刀原则: 在同样能够解释已知观测现象的假设中,我们
应该挑选 ‘‘最简单’’ 的那一个
最近邻回归(无参数模型代表): 最近邻回归模型存储了训练集中所有的X 和 y。当需要为测试点 x 分类时,模型会查询训练集中离该点最近的点,并返回相关的回归目标。在这里插入图片描述
贝叶斯误差(Bayes error): 从预先知道的真实分布 p(x, y) 预测而出现的误差

线性回归的正则化
在这里插入图片描述
我们通过改变权重衰减的量来避免高阶模型的过拟合问题

? 为什么权重衰减有助于解决过拟合问题
个人理解
由于数据集中每个数据并不一定完全满足其对应的数据分布情况,多少有点噪音(偏离水平),这个时候如果参数系数太大,导致求导结果很大,反传过程差值变化会很大,有可能不在一个数量级上,这是噪音点造成的危害,为了降低这种危害,让导数保持在大概的数量级上,所以使用了正则化

正则化是指我们修改学习算法,使其降低泛化误差而非训练误差。

我们总是从训练数据中构建验证集。特别地,我们将训练数据分成两个不相交的子集。其中一个用于学习参数。另一个作为验证集,用于估计训练中或训练后的泛化误差,更新超参数,也就是说,验证集是用来“学习”超参的。

k-折交叉验证(估计学习算法 A 的泛化误差)
在这里插入图片描述
点估计: 点估计试图为一些感兴趣的量提供单个 ‘‘最优’’ 预测。一般地,感兴趣的量可以是单个参数,或是某些参数模型中的一个向量参数
感觉点估计很像高中数学给定函数形式,求函数中的未知数
线性回归示例(第 5.1.4 节中讨论的)和多项式回归示例(第 5.2 节中讨论的)都既可以被解释为估计参数 w,又可以被解释为估计从 x 到 y 的函数映射 fˆ。

在这里插入图片描述
参数θ\thetam的值和m的取值有关系,就是说m愈大,样本越多,θ\thetam越准确

一种解释最大似然估计的观点是将它看作最小化训练集上的经验分布 pˆdata 和模型分布之间的差异,两者之间的差异程度可以通过 KL 散度度量。
在这里插入图片描述
我们可以将最大似然看作是使模型分布尽可能地和经验分布 pˆdata 相匹配的尝试

最大化关于 w 的对数似然和最小化均方误差会得到相同的参数估
计 w。但是对于相同的最优 w,这两个准则有着不同的值。

最大似然估计最吸引人的地方在于,它被证明当样本数目 m → ∞ 时,就收敛率而言是最好的渐近估计。
因为一致性和统计效率,最大似然通常是机器学习中的首选估计

从点估计视角来介绍概率派统计和贝叶斯统计:
频率派的视角 真实参数 θ 是未知的定值,而点估计
θ^\hatθ 是考虑数据集上函数(可以看作是随机的)的随机变量。
贝叶斯用概率反映知识状态的确定性程度。数据
集能够被直接观测到,因此不是随机的。另一方面,真实参数 θ 是未知或不确定的,因此可以表示成随机变量

贝叶斯估计没搞懂,这块后面单独研究吧

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章