统计学习方法——第1章统计学习方法概论

统计学习方法

第一章统计学习方法概论

1.1 统计学习

对象：数据。基本假设：同类数据具有一定的统计规律性。

**统计学习方法三要素：**模型、策略、算法

**统计学习的组成：**监督学习、非监督学习、半监督学习、强化学习

1.2 监督学习

**输入空间：**输入的所有可能的取值的集合

**输出空间：**输出的所有可能的取值的集合

**特征空间：**每一个具体的实例由一个特征向量表示，所有特征向量的空间称为特征空间

实例 $x$ 的特征向量： $x = (x^{(1)},x^{(2)}, ..., x^{(n)})$ ，其中， $x^{(i)}$ 表示第 $i$ 个特征

第 $i$ 个输入变量： $x_i = (x_i^{(1)},x_i^{(2)},...,x_i^{(n)})^T$ ,通常用列向量表示

训练集： $T =((x_1,y_1), (x_2,y_2),...,(x_n,y_n))$

回归问题：输入变量与输出变量均为连续变量的预测问题

分类问题：输出变量为有限个离散变量的预测问题

标注问题：输入与输出均为变量序列的预测问题

联合概率分布： $P(X,Y)$ 是输入 $X$ 和输出 $Y$ 的联合概率分布分布函数或分布密度函数， $X$ 和 $Y$ 具有联合概率分布的假设是监督学习关于数据的基本假设

监督学习的模型

1、概率模型：由条件概率 $P(X,Y)$ 确定，预测： $P(y|x)$

2、非概率模型：由决策函数 $Y = f(X)$ 表示，预测： $y = f(x)$

3、生成模型：生成方法由数据学习的联合概率分布 $P(X,Y)$ ,然后求出条件概率 $P(Y|X)$ 作为预测的模型。即生成模型： $P(Y | X)=\frac{P(X, Y)}{P(X)}$ ,该模型表示在给定输入 $X$ 产生输出 $Y$ 的生成关系。典型的生成模型有：朴素贝叶斯法和隐马尔可夫模型。

4、判别模型：由数据直接学习决策函数 $f(X)$ 或者条件概率分布 $P(Y|X)$ 作为预测模型。判别模型关心的是给定的输入 $X$ ,应该预测什么样的输出 $Y$ 。典型的判别模型有：k近邻法，感知机，决策树，logistics回归，最大熵模型，支持向量机，提升方法和条件随机场。

1.3 统计学习方法三要素

$方法 = 模型 + 策略 + 算法$

在监督学习中，模型就是所要学习的条件概率分布或决策函数，模型的假设空间包含所有的条件概率分布或决策函数。假设空间用 $\mathcal{F}$ 表示，假设空间可以定义为条件概率分布/决策函数的集合：
$\mathcal F = \{P|P(X,Y)\} \ \ OR \ \ \mathcal F = \{f|Y = f(X) \}$
其中 $X$ 和 $Y$ 表示定义在输入空间和 $\mathcal{X}$ 输出空间 $\mathcal{Y}$ 上的变量，这是 $\mathcal{F}$ 通常是一个由参数向量决定的函数族：
$\mathcal{F}=\left\{P\left|P_{\theta}(Y | X), \theta \in \mathbf{R}^{n}\right\}\right . \ \ \ OR \ \ \mathcal{F}=\left\{f | Y=f_{\theta}(X), \theta \in \mathbf{R}^{n}\right\}$
参数向量 $\theta$ 取值与 $n$ 维欧式空间 $\mathbf{R}^n$ ,称为参数空间

在监督学习中，策略就是考虑按照什么样的准则学习或选择最优模型。

损失函数：是 $f(X)$ 和 $Y$ 的非负实值函数，记为 $L(Y, f(X))$ ，度量模型一次预测的好坏

序号	类型	表达式
（1）	0 - 1损失函数	$L(Y, f(X))=\left\{\begin{array}{ll}{1,} & {Y \neq f(X)} \\ {0,} & {Y=f(X)}\end{array}\right.$
（2）	平方损失函数	$L(Y, f(X))=(Y-f(X))^{2}$
（3）	绝对损失函数	$L(Y, f(X))=
（4）	对数（似然）损失函数	$L(Y, P(Y)) = -\log P(Y)$

输入、输出 $(X,Y)$ 是随机变量，遵循联合分布 $P(X,Y)$ ,所以损失函数的期望为：
$R_{\mathrm{exp}}(f)=E_{P}[L(Y, f(X))]=\int_{\mathcal{X} \times \mathcal{Y}} L(y, f(x)) P(x, y) \mathrm{d} x d y$
这是理论上模型 $f(X)$ 关于联合分布 $P(X,Y)$ 平均意义下的损失，称为风险函数或期望损失，用于度量平均意义下模型预测的好坏。学习的目标就是选择期望风险最小的模型。

由于联合分布 $P(X,Y)$ 未知， $R_{\exp }(f)$ 不能直接求出。事实上，如果已知 $P(X,Y)$ 则可以间接求出条件概率 $P(Y|X)$ ，因此，也不需要学习，正是由于联合分布未知，所以才进行学习。一方面，最小化期望风险需要用到联合分布，另一方面。联合分布又未知，所以监督学就成为一个病态问题（ill-formed problem）。

给定训练数据集 $T \{(x_1,y_1), (x_2,y_2),...,(x_n,y_n)\}$ ，模型 $f(X)$ 关于训练数据集的平均损失称为经验风险或经验损失，记为 $R_{e m p}$ :
$R_{\mathrm{emp}}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)$
经验风险最小化(ERM)：
$\min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)$
其中 $\mathcal{F}$ 是假设空间。当样本容量足够大时，经验风险最小化能保证很好的学习效果，在显示中被广泛应用。如极大似然估计就是经验风险最小化的一个例子。当模型是条件概率分布，损失函数是对数损失函数时，经验风险最小化等价于极大似然估计。

结构风险最小化(SRM)：
$\min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f)$
结构风险最小化是为了防止过拟合而提出的策略。结构风险最小化等价于正则化。结构风险小的模型往往对训练数据集和未知的测试数据集都具有较好的预测。如贝叶斯估计的最大后验概率估计就是结构风险最小化的一个例子。当模型是条件概率分布，损失函数是对数损失函数，模型的复杂度模型的先验概率表示时，结构风险最小化等价于最大化后验概率。

1.4 模型评估与模型选择

训练误差：
$R_{\text { enp }}(\hat{f})=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, \hat{f}\left(x_{i}\right)\right)$
测试误差：
$e_{\mathrm{test}}=\frac{1}{N^{\prime}} \sum_{i=1}^{N^{\prime}} L\left(y_{i}, \hat{f}\left(x_{i}\right)\right)$
当损失函数是0-1损失时，测试误差就成了常见的测试数据集的误差率：
$e_{\mathrm{test}}=\frac{1}{N^{\prime}} \sum_{i=1}^{N^{\prime}} I\left(y_{i} \neq \hat{f}\left(x_{i}\right)\right)$
相应地，常见的测试数据集的准确率（Accuracy）为：
$r_{\text { test }}=\frac{1}{N^{\prime}} \sum_{i=1}^{N^{\prime}} I\left(y_{i}=\hat{f}\left(x_{i}\right)\right)$
显然： $r_{\text { test }}+e_{\text { test }}=1$

泛化误差：
$R_{\mathrm{exp}}(\hat f)=E_{P}[L(Y, \hat f(X))]=\int_{\mathcal{X} \times \mathcal{Y}} L(y, \hat f(x)) P(x, y) \mathrm{d} x d y$
泛化误差上界：1）是样本容量的函数，当样本容量增加时，泛化上界趋于0；是假设空间的容量的函数，假设空间容量越大，模型就越复杂，泛化误差上界就越大。

定理（泛化误差上界）：对二分类问题，当假设空间是有限个函数的集合 $\mathcal{F}=\left\{f_{1}, f_{2}, \cdots, f_{d}\right\}$ ，对任意一个函数的集合 $f \in \mathcal{F}$ ，至少以概率 $1-\delta$ ，以下不等式成立：
$R(f) \leqslant \hat{R}(f)+\varepsilon(d, N, \delta)$

$\varepsilon(d, N, \delta)=\sqrt{\frac{1}{2 N}\left(\log d+\log \frac{1}{\delta}\right)}$

其中，期望风险 $R(f)=E[L(Y, f(X))]$ ,经验风险 $\hat{R}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)$

统计学习方法——第1章统计学习方法概论