统计学习方法笔记，第一章，统计学系方法概论

这个博客系列是我复习李航博士的《统计学习方法》所做的笔记，其中一部分是笔记，一部分是自己的感悟和理解，可能有些理解不够准确，欢迎指正！

1.1 统计学习

(1)统计学习方法的三要素：模型、策略和算法，之后的章节对于每一种模型都是按照这三个角度进行分析

(2)学习的定义：通过执行某个过程改进性能，而统计学习则是运用数据和统计的方法进行改进，通过统计方法对数据进行学习，改进模型的性能。

(3)统计学习的基本假设：同类数据具有一定的统计规律性。我们通常用于建模的数据都是具有相同性质的同类数据，如人的身高体重等。我们一般默认数据是独立同分布的。

(4)统计学习的目标：

<1>学习什么样的模型（模型选择）

<2>如何学习模型（优化目标，损失函数，策略）

(5)对应关系

模型 —— 假设空间的集合

策略 —— 模型的评价标准，优化目标，损失函数，代价函数

算法 —— 达到优化目标的方法，如梯度下降等

1.2 监督学习

1.监督学习的假设：输入变量X与输出变量Y遵循联合概率分布P（X，Y），且概率分布一定存在，是我们学习的对象。我们假设数据都是由这个概率分布P（X，Y）独立同分布产生的。

1.3 统计学习三要素

1.3.1模型

模型决定了假设空间，假设空间包含了所有可能的条件分布。比如我们假设模型为一元线性函数，则所有满足y = ax + b (a,b属于R)就是假设空间。

1.3.2策略

1.策略是对于模型的评价标准，依照什么样的标准从假设空间中选择最合适的模型。举个不恰当的例子，，如果策略选择是让y最小，那就是让x = 0，当然实际情况不可能这么简单，哈哈。

2.损失函数度量了预测错误的程度，即预测值和真实值的不一致性。

3.风险函数是损失函数对整个样本空间的期望值，即

但是联合分布显然是未知的，是我们想要得到的。但是我们风险函数是我们的策略，也就是优化目标，既然其中的未知，那么就无法求了，怎么办呢？于是我们通常用经验风险代替风险函数，如下所示：

其中是所有样本点。

总言之，风险函数是关于联合分布的期望损失，经验风险是训练集上的平均损失。

那么为什么可以这样替代呢？因为根据大数定律，当样本量N趋近于无穷大时，经验风险趋近于风险函数。

但是，N趋近于无穷大这个条件一般不成立，所以需要矫正。

4.经验风险最小化和结构风险最小化

经验风险最小化就是使得经验风险最小，即

但是我们上面就提到了，N趋近于无穷大这个条件一般不成立，因此会产生过拟合，于是我们要采取结构风险最小化。

结构风险最小化就是正则化，目的就是为了防止过拟合而加入惩罚项。

因为从理论上来说，模型结构越复杂，就越容易降低经验经验风险，比如一元10次函数对于数据的拟合能力一定比一元一次强（很好理解，一元10次前9项为0就是一元一次，所以它包含了一元一次）。这样为了降低经验风险，我们会倾向于选择复杂的模型，但是复杂的模型通常泛化能力不好，因此我们要通过加入惩罚项来让模型倾向于选择简单的模型。

结构风险的定义：

其中是模型的复杂度，》=0是系数，我们最小化就是选择结构风险最小化策略。

1.3.3算法

算法是根据学习策略，从假设空间中选择最优模型的方法。

通常都不会有解析解，因此采用数值方法求全局最优解。一般有梯度下降，牛顿法等。

1.4模型评估与模型选择

1.4.1 训练误差与测试误差

我们的学习更侧重测试误差，它反映了对于未知数据的预测能力，即泛化能力。

1.4.2过拟合与模型选择

一般来说，模型复杂度越高，对于训练集的拟合能力就越强，因此如果一味追求对训练集的拟合，就会倾向于选择非常复杂的模型，从而可能学习到了一些噪声信息。模型的训练误差很小，但是测试误差很大，但是我们之前说过，测试误差才是更重要的，因为它反映了模型的泛化能力。

因此，在学习时要防止过拟合，就要选择复杂度适当的模型，有两种方法：正则化和交叉验证。

1.5正则化与交叉验证

1.5.1正则化

正则化就是结构风险最小化，即最小化

通常采用L1和L2范数。

带L2范数的结构风险为

带L1范数的结构风险为

因此当w的参数较大的时候，后一项变大，那么为了使L（w）最小，模型倾向于选择较小的参数w，这样就降低了复杂度。

1.7生成模型与判别模型

生成模型：通过联合概率分布

，求出条件概率分布

典型的有：朴素贝叶斯和隐马尔可夫模型

特点：收敛快，可以解决隐变量问题，容量大时可以更快收敛于真实模型

判别模型：直接学习条件概率分布

典型有：knn，LR，SVM，神经网络等

特点：学习准确率高，可以直接定义特征，可以简化学习问题。

区别：是否是通过联合概率分布求模型

1.8 分类问题

评价指标：准确率（Accura），精确率（precision），召回率（recall）

TP ——将正类预测为正类数

FN —— 将正类预测成负类数

FP —— 将负类预测成正类数

TN —— 将负类预测成正类数

记忆：第二个字母是预测结果，第一个字母是正确还是错误。

精确率（precision）

即预测为正的里面有多少是正的

信息检索里也称为查准率

查准率＝检索出的相关信息量 / 检索出的信息总量

召回率（recall）

即样本所有的正的里面有多少被预测出来了

信息检索里也称为查全率

查全率＝检索出的相关信息量 / 系统中的相关信息总量

1.9 标注问题

标注问题是分类问题的推广，它的输入和输出都是序列，因此它的输入具有上下文关系，比如文本。

常用方法：隐马尔科夫，条件随机场

1.10 回归问题

回归问题的输出都是连续值，而分类是离散值。回归问题等价于函数拟合：选择一条函数曲线使其能很好地拟合已知数据和预测未知数据。

回归学习最常用的损失函数：平方损失函数，此时可以用最小二乘法求解。

回归学习很多时候可以转化为分类问题，比如对电影评分，我们可以用评星代替评分，通常分类的效果更好。

统计学习方法笔记，第一章，统计学系方法概论

1.1 统计学习

1.2 监督学习

1.3 统计学习三要素

1.4模型评估与模型选择

1.7生成模型与判别模型

1.8 分类问题

1.9 标注问题

1.10 回归问题

POJ 1338 & UVA 136

POJ 1005 & ZOJ 1049 & UVA 2363

ZOJ 2739 & UVA 3399

ubuntu 16.04 安裝 xgboost python運行環境

統計學習方法筆記，第一章，統計學系方法概論

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結