第一章统计学习方法概论

1、统计学习方法

统计学习方法是基于数据构建统计模型从而对数据进行预测和分析、统计学习方法由监督学习非监督学习、半监督学习和强化学习等组成。主要讨论监督学习

统计学习方法步骤：

有限训练集合
确定学习模型集合（模型选择）
确定模型选择准则（策略，损失函数确定）
实现求解最优化模型算法（算法，梯度下降算法选择）
最优化模型选择
利用模型对数据进行预测分析

统计学习的三要素：模型、策略和算法

2、监督学习

监督学习：Supervised Learning的数据是有特征(feature)和标签(label)的。机器可以寻找到标签和特征之间的联系，当面对只有特征而没有标签的数据时，可以判断出标签。

非监督学习：Unsupervised Learning的数据只有特征（feature），没有标签（label）。

半监督学习：Semi-Supervised Learning中使用的数据，有一部分是标记过的，而大部分是没有标记的。因此和监督学习相比，半监督学习的成本较低，但是又能达到较高的准确度。

强化学习：强化学习也是使用未标记的数据，但是可以通过某种方法知道你是离正确答案越来越近还是越来越远（即奖惩函数）。可以把奖惩函数想象成正确答案的一个延迟的、稀疏的形式。在监督学习中，能直接得到每个输入的对应的输出。强化学习中，训练一段时间后，你才能得到一个延迟的反馈，并且只有一点提示说明你是离答案越来越远还是越来越近。

3、统计学习三要素

模型、策略、算法

模型就是要学习的条件分布和决策函数

策略学习准则，引入损失函数，损失函数越小模型越好

算法，求解最优解

4、模型评估与模型选择

训练误差和测试误差，测试误差反映对未知数据集的预测能力（泛化能力），是学习中的重要概念。

模型复杂度要与问题相当，否则会造成训练误差小，测试误差大的现象。

5、正则化与交叉验证

正则化，正则化一般是模型复杂度的单调递增函数，模型越复杂正则化值越大。

交叉验证

简单交叉验证：划分验证集和训练集

s折交叉验证：切分s个数据集，s-1做训练，1做测试。最终选s次中误差最小的一个

6、泛化能力

对未知数据的预测能力，通过测试误差验证。

泛化误差就是学习到的模型的期望风险。

经验风险（训练误差）小于期望风险（测试误差）

7、生成模型和判别模型

生成模型学习联合概率分布

判别模型给输入预测输出

8、分类问题、标注问题、回归问题

准确率召回率

回归问题与分类问题本质上都是要建立映射关系：
f(x)→y, x∈A，y∈B

回归问题，其输出空间B是一个度量空间，即所谓“定量”。也就是说，回归问题的输出空间定义了一个度量，去衡量输出值与真实值之间的“误差大小”。例如：预测一瓶700毫升的可乐的价格（真实价格为5元）为6元时，误差为1；预测其为7元时，误差为2。这两个预测结果是不一样的，是有度量定义来衡量这种“不一样”的。（于是有了均方误差这类误差函数）。

分类问题，其输出空间B不是度量空间，即所谓“定性”。也就是说，在分类问题中，只有分类“正确”与“错误”之分，至于错误时是将Class 5分到Class 6,还是Class 7，并没有区别，都是在error counter上+1。

在实际操作中，我们确实常常将回归问题和分类问题互相转化（分类问题回归化：逻辑回归；回归问题分类化：年龄预测问题——>年龄段分类问题），但这都是为了处理实际问题时的方便之举，背后损失的是数学上的严谨性。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

第一章统计学习方法概论

1、统计学习方法

2、监督学习

3、统计学习三要素

4、模型评估与模型选择

5、正则化与交叉验证

6、泛化能力

7、生成模型和判别模型

8、分类问题、标注问题、回归问题

Nginx R31 doc 官方文档-01-nginx 如何安装

Qt/C++音视频开发74-合并标签图形/生成yolo运算结果图形/文字和图形合并成一个/水印滤镜

挑战程序设计竞赛 2.2章习题 POJ - 3617 Best Cow Line 贪心

字节面试：MySQL什么时候锁表？如何防止锁表？

.NET8连接SQL SERVER 2008 R2 报：证书链是由不受信任的颁发机构颁发的

golang开发环境搭建(win10)

python计算机视觉学习笔记——PIL库的用法

Golang初学：获取程序内存使用情况，std runtime

圖像的讀取、存儲、類型轉換

C++解法：劍指offer，輸入一個鏈表，輸出該鏈表中倒數第k個結點。

.y4m轉成圖片——阿里優酷圖像超分辨率比賽

第二章、感知機

C++解法：輸入兩棵二叉樹A，B，判斷B是不是A的子結構。（ps：我們約定空樹不是任意一個樹的子結構）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

第一章 统计学习方法概论

1、统计学习方法

2、监督学习

3、统计学习三要素

4、模型评估与模型选择

5、正则化与交叉验证

6、泛化能力

7、生成模型和判别模型

8、分类问题、标注问题、回归问题

第一章统计学习方法概论