Python机器学习基础(二)

监督学习(一)

什么是监督学习?

当我们希望通过某些输入来预测对应的输出,这时候就需要先使用已经存在的输入/输出数据对来训练模型,这些数据对中,每一个输入都一个已知的输出,我们就是让机器去学习这其中的规律


2.1 分类与回归

基本介绍

监督学习问题主要分为两种:分类与回归

分类问题:预测类别标签。比如在(一)中实现的鸢尾花分类

  • 分类问题又还可以分为二分类和多分类。
  • 在二分类问题中,我们通常将其中一个类别称为类(positive class),另一个类别称为 类(negative class)。这里的“正”并不代表好的方面或正数,而是代表研究对象。

回归问题:预测一个连续值。比如根据教育水平,年龄和居住地来预测一个人的年收入

  • 预测的目标值是在某一个范围内的任意取值

区分分类任务与回归任务的简单方法:就是输出是否具有某种连续性。


2.2 泛化、过拟合与欠拟合

基本介绍

泛化:如果一个模型能够对没见过的数据做出准确 预测,我们就说它能够从训练集泛化(generalize)到测试集
过拟合:如果在拟合模型时过分关注训练集的细节,得到了一个在训练集上表现很好、但不能泛化到新数据上的模型,这种情况就存在过拟合
欠拟合:模型在训练集上的表现就很差,选择过于简单的模型被称为欠拟合

总结:我们的模型越复杂,在训练数据上的预测结果就越好。但是,如果我们的模型过于复杂, 我们开始过多关注训练集中每个单独的数据点,模型就不能很好地泛化到新数据上。

模型复杂度与数据集大小的关系

模型复杂度与训练数据集中输入的变化密切相关,数据集中包含的数据点变化范围越大,在不发生过拟合的前提下可以使用的模型就越复杂,对监督学习任务往往特别有用

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章