监督学习深入介绍

监督学习三要素

  • 模型
    总结数据内在规律,用数学函数描述的系统
  • 策略
    选取最优模型的评价准则
  • 算法
    选取最优模型的具体方法

监督学习主要步骤

  • 得到一个有限的训练数据集
  • 确定包含所有学习模型的集合
  • 确定模型选择的准则,也就是学习策略
  • 实现求解最优模型的算法,也就是学习算法通过学习算法选择最优模型
  • 利用得到的最优模型,对新数据进行预测或分析

监督学习模型评估策略

  • 模型评估
    – 训练集和测试集
    – 损失函数和经验风险
    – 训练误差和测试误差
  • 模型选择
    – 过拟合和欠拟合
    – 正则化和交叉验证

训练集

输入到模型中对模型进行训练的数据集合

测试集

模型训练完成后测试训练效果的数据集合

损失函数

损失函数是用来估量你模型的预测值f(x)与真实值Y的误差大小,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好

0-1 损失函数

在这里插入图片描述
可以看出上述的定义太过严格,如果真实值为1,预测值为0.999,那么预测应该正确,但是上述定义显然是判定为预测错误。

平方损失函数(经常用于回归中)

在这里插入图片描述

绝对损失函数(经常用于回归中)

在这里插入图片描述

对数损失函数

在这里插入图片描述

经验风险

– 模型 f(X) 关于训练数据集的平均损失称为经验风险(empirial risk),记作 Remp
在这里插入图片描述
经验风险最小化(Empirical Risk Minimization,ERM) – 这一策略认为,经验风险最小的模型就是最优的模型
– 样本足够大时,ERM 有很好的学习效果,因为有足够多的“经验”
– 样本较小时,ERM 就会出现一些问题

训练误差和测试误差

训练误差

– 训练误差(training error)是关于训练集的平均损失。
– 训练误差的大小,可以用来判断给定问题是否容易学习,但本质上并不重要

测试误差

– 测试误差(testing error)是关于测试集的平均损失
– 测试误差真正反映了模型对未知数据的预测能力,这种能力一般被称为 泛化能力

模型选择

在这里插入图片描述

正则化

在这里插入图片描述

交叉验证

  • 数据集划分
    – 如果样本数据充足,一种简单方法是随机将数据集切成三部分:训练集(trainingset) 、验证集(validation set)和测试集(test set)
    – 训练集用于训练模型, 验证集用于模型选择,测试集用于学习方法评估

数据不充足时,可以重复地利用数据–交叉验证(cross validation)

  • 简单交叉验证
    – 数据随机分为两部分,如70%作为训练集,剩下30%作为测试集
    –训练集在不同的条件 下(比如参数个数)训练模型,得到不同的模型
    –在测试集上评价各个模型的测试误差,选出最优模型

  • S折交叉验证
    – 将数据随机切分为S个互不相交、相同大小的子集; S-1个做训练集,剩下一个做测试集-重复进行训练集 、测试集的选取,有S种可能的选择

  • 留一交叉验证

分类和回归

在这里插入图片描述

分类问题

在这里插入图片描述

精确率和召回率

在这里插入图片描述在这里插入图片描述

监督学习模型求解算法

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章