监督学习深入介绍

监督学习三要素

模型
总结数据内在规律，用数学函数描述的系统
策略
选取最优模型的评价准则
算法
选取最优模型的具体方法

监督学习主要步骤

得到一个有限的训练数据集
确定包含所有学习模型的集合
确定模型选择的准则，也就是学习策略
实现求解最优模型的算法，也就是学习算法通过学习算法选择最优模型
利用得到的最优模型，对新数据进行预测或分析

监督学习模型评估策略

模型评估
– 训练集和测试集
– 损失函数和经验风险
– 训练误差和测试误差
模型选择
– 过拟合和欠拟合
– 正则化和交叉验证

训练集

输入到模型中对模型进行训练的数据集合

测试集

模型训练完成后测试训练效果的数据集合

损失函数

损失函数是用来估量你模型的预测值f(x)与真实值Y的误差大小，它是一个非负实值函数,通常使用L(Y, f(x))来表示，损失函数越小，模型的鲁棒性就越好。

0-1 损失函数

可以看出上述的定义太过严格，如果真实值为1，预测值为0.999，那么预测应该正确，但是上述定义显然是判定为预测错误。

平方损失函数（经常用于回归中）

绝对损失函数（经常用于回归中）

对数损失函数

经验风险

– 模型 f(X) 关于训练数据集的平均损失称为经验风险（empirial risk），记作 Remp

• 经验风险最小化（Empirical Risk Minimization，ERM） – 这一策略认为，经验风险最小的模型就是最优的模型
– 样本足够大时，ERM 有很好的学习效果，因为有足够多的“经验”
– 样本较小时，ERM 就会出现一些问题

训练误差和测试误差

训练误差

– 训练误差（training error）是关于训练集的平均损失。
– 训练误差的大小，可以用来判断给定问题是否容易学习，但本质上并不重要

测试误差

– 测试误差（testing error）是关于测试集的平均损失。
– 测试误差真正反映了模型对未知数据的预测能力，这种能力一般被称为 泛化能力

模型选择

正则化

交叉验证

数据集划分
– 如果样本数据充足，一种简单方法是随机将数据集切成三部分:训练集(trainingset) 、验证集(validation set)和测试集(test set)
– 训练集用于训练模型，验证集用于模型选择,测试集用于学习方法评估

数据不充足时，可以重复地利用数据–交叉验证(cross validation)

简单交叉验证
– 数据随机分为两部分，如70%作为训练集，剩下30%作为测试集
–训练集在不同的条件下(比如参数个数)训练模型，得到不同的模型
–在测试集上评价各个模型的测试误差，选出最优模型
S折交叉验证
– 将数据随机切分为S个互不相交、相同大小的子集; S-1个做训练集，剩下一个做测试集-重复进行训练集、测试集的选取，有S种可能的选择
留一交叉验证

分类和回归

分类问题

精确率和召回率

监督学习模型求解算法

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

监督学习深入介绍

这里写目录标题

监督学习三要素

监督学习主要步骤

监督学习模型评估策略

训练集

测试集

损失函数

0-1 损失函数

平方损失函数（经常用于回归中）

绝对损失函数（经常用于回归中）

对数损失函数

经验风险

训练误差和测试误差

训练误差

测试误差

模型选择

正则化

交叉验证

分类和回归

分类问题

精确率和召回率

监督学习模型求解算法

linux安装cuda和cudnn

模拟手机设备：使用 Playwright 实现移动端自动化测试

Mellanox网卡开启SR-IOV

测试人员都是画画大神，让我看看谁还不会用代码图？

Object.values()对象遍历

我拍了拍Redis，被移出了群聊···

网络现代化通向云原生应用的高速公路

面试官：说说你对序列化的理解

我宣布，这是我找到的史上AI最全论文体系！

position(static\relative\absolute\fixed\sticky)

white-space 實現文本省略號的效果

CSS 浮動，高度塌陷和BFC，清除浮動

微信小程序入門（六）常見內置組件 Text組件 Button組件解析 open-type的取值 View組件 Image組件 Input組件 scroll-view組件共同屬性

監督學習深入介紹

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結