监督学习(一)
什么是监督学习?
当我们希望通过某些输入来预测对应的输出,这时候就需要先使用已经存在的输入/输出数据对来训练模型,这些数据对中,每一个输入都一个已知的输出,我们就是让机器去学习这其中的规律
2.1 分类与回归
基本介绍
监督学习问题主要分为两种:分类与回归
分类问题:预测类别标签。比如在(一)中实现的鸢尾花分类
- 分类问题又还可以分为二分类和多分类。
- 在二分类问题中,我们通常将其中一个类别称为正类(positive class),另一个类别称为反 类(negative class)。这里的“正”并不代表好的方面或正数,而是代表研究对象。
回归问题:预测一个连续值。比如根据教育水平,年龄和居住地来预测一个人的年收入
- 预测的目标值是在某一个范围内的任意取值
区分分类任务与回归任务的简单方法:就是输出是否具有某种连续性。
2.2 泛化、过拟合与欠拟合
基本介绍
泛化:如果一个模型能够对没见过的数据做出准确 预测,我们就说它能够从训练集泛化(generalize)到测试集
过拟合:如果在拟合模型时过分关注训练集的细节,得到了一个在训练集上表现很好、但不能泛化到新数据上的模型,这种情况就存在过拟合
欠拟合:模型在训练集上的表现就很差,选择过于简单的模型被称为欠拟合
总结:我们的模型越复杂,在训练数据上的预测结果就越好。但是,如果我们的模型过于复杂, 我们开始过多关注训练集中每个单独的数据点,模型就不能很好地泛化到新数据上。
模型复杂度与数据集大小的关系
模型复杂度与训练数据集中输入的变化密切相关,数据集中包含的数据点变化范围越大,在不发生过拟合的前提下可以使用的模型就越复杂,对监督学习任务往往特别有用