Python机器学习基础（二）

原創

Skyones

2020-04-25 07:33

监督学习（一）

什么是监督学习？

当我们希望通过某些输入来预测对应的输出，这时候就需要先使用已经存在的输入/输出数据对来训练模型，这些数据对中，每一个输入都一个已知的输出，我们就是让机器去学习这其中的规律

2.1 分类与回归

基本介绍

监督学习问题主要分为两种：分类与回归

分类问题：预测类别标签。比如在（一）中实现的鸢尾花分类

分类问题又还可以分为二分类和多分类。
在二分类问题中，我们通常将其中一个类别称为正类(positive class)，另一个类别称为反类(negative class)。这里的“正”并不代表好的方面或正数，而是代表研究对象。

回归问题：预测一个连续值。比如根据教育水平，年龄和居住地来预测一个人的年收入

预测的目标值是在某一个范围内的任意取值

区分分类任务与回归任务的简单方法：就是输出是否具有某种连续性。

2.2 泛化、过拟合与欠拟合

基本介绍

泛化：如果一个模型能够对没见过的数据做出准确预测，我们就说它能够从训练集泛化(generalize)到测试集
过拟合：如果在拟合模型时过分关注训练集的细节，得到了一个在训练集上表现很好、但不能泛化到新数据上的模型，这种情况就存在过拟合
欠拟合：模型在训练集上的表现就很差，选择过于简单的模型被称为欠拟合

总结：我们的模型越复杂，在训练数据上的预测结果就越好。但是，如果我们的模型过于复杂，我们开始过多关注训练集中每个单独的数据点，模型就不能很好地泛化到新数据上。

模型复杂度与数据集大小的关系

模型复杂度与训练数据集中输入的变化密切相关，数据集中包含的数据点变化范围越大，在不发生过拟合的前提下可以使用的模型就越复杂，对监督学习任务往往特别有用

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Python机器学习基础（二）

监督学习（一）

2.1 分类与回归

基本介绍

2.2 泛化、过拟合与欠拟合

基本介绍

模型复杂度与数据集大小的关系

deepin環境下安裝pip

Python機器學習基礎（二）

python 機器學習基礎（一）

deepin環境下安裝

Hadoop實踐1-inux deepin配置Hadoop環境

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結