统计学习方法
第一章 统计学习方法概论
1.1 统计学习
对象 :数据。基本假设 :同类数据具有一定的统计规律性 。
**统计学习方法三要素:**模型、策略、算法
**统计学习的组成:**监督学习、非监督学习、半监督学习、强化学习
1.2 监督学习
**输入空间:**输入的所有可能的取值的集合
**输出空间:**输出的所有可能的取值的集合
**特征空间:**每一个具体的实例由一个特征向量表示,所有特征向量的空间称为特征空间
实例x x x 的特征向量:x = ( x ( 1 ) , x ( 2 ) , . . . , x ( n ) ) x = (x^{(1)},x^{(2)}, ..., x^{(n)}) x = ( x ( 1 ) , x ( 2 ) , . . . , x ( n ) ) ,其中,x ( i ) x^{(i)} x ( i ) 表示第i i i 个特征
第i i i 个输入变量:x i = ( x i ( 1 ) , x i ( 2 ) , . . . , x i ( n ) ) T x_i = (x_i^{(1)},x_i^{(2)},...,x_i^{(n)})^T x i = ( x i ( 1 ) , x i ( 2 ) , . . . , x i ( n ) ) T ,通常用列向量表示
训练集:T = ( ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) ) T =((x_1,y_1), (x_2,y_2),...,(x_n,y_n)) T = ( ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) )
回归问题 :输入变量与输出变量均为连续变量的预测问题
分类问题 :输出变量为有限个离散变量的预测问题
标注问题 :输入与输出均为变量序列的预测问题
联合概率分布 :P ( X , Y ) P(X,Y) P ( X , Y ) 是输入X X X 和输出Y Y Y 的联合概率分布分布函数或分布密度函数,X X X 和Y Y Y 具有联合概率分布的假设是监督学习关于数据的基本假设
监督学习的模型
1、概率模型 :由条件概率P ( X , Y ) P(X,Y) P ( X , Y ) 确定,预测:P ( y ∣ x ) P(y|x) P ( y ∣ x )
2、非概率模型 :由决策函数Y = f ( X ) Y = f(X) Y = f ( X ) 表示,预测:y = f ( x ) y = f(x) y = f ( x )
3、生成模型 :生成方法由数据学习的联合概率分布P ( X , Y ) P(X,Y) P ( X , Y ) ,然后求出条件概率P ( Y ∣ X ) P(Y|X) P ( Y ∣ X ) 作为预测的模 型。即生成模型:P ( Y ∣ X ) = P ( X , Y ) P ( X ) P(Y | X)=\frac{P(X, Y)}{P(X)} P ( Y ∣ X ) = P ( X ) P ( X , Y ) ,该模型表示在给定输入X X X 产生输出Y Y Y 的生成关系。典型的生成模型有: 朴素贝叶斯法和隐马尔可夫模型。
4、判别模型 :由数据直接学习决策函数f ( X ) f(X) f ( X ) 或者条件概率分布P ( Y ∣ X ) P(Y|X) P ( Y ∣ X ) 作为预测模型。判别模型关心的 是给定的输入X X X ,应该预测什么样的输出Y Y Y 。典型的判别模型有:k近邻法,感知机,决策树,logistics回归, 最大熵模型,支持向量机,提升方法和条件随机场。
1.3 统计学习方法三要素
方 法 = 模 型 + 策 略 + 算 法
方法 = 模型 + 策略 + 算法
方 法 = 模 型 + 策 略 + 算 法
在监督学习中,模型 就是所要学习的条件概率分布或决策函数,模型的假设空间 包含所有的条件概率分 布或决策函数。假设空间用F \mathcal{F} F 表示,假设空间可以定义为条件概率分布/决策函数的集合:
F = { P ∣ P ( X , Y ) } O R F = { f ∣ Y = f ( X ) }
\mathcal F = \{P|P(X,Y)\} \ \ OR \ \ \mathcal F = \{f|Y = f(X) \}
F = { P ∣ P ( X , Y ) } O R F = { f ∣ Y = f ( X ) }
其中X X X 和Y Y Y 表示定义在输入空间和X \mathcal{X} X 输出空间Y \mathcal{Y} Y 上的变量,这是F \mathcal{F} F 通常是一个由参数向量决定的函数族:
F = { P ∣ P θ ( Y ∣ X ) , θ ∈ R n } O R F = { f ∣ Y = f θ ( X ) , θ ∈ R n }
\mathcal{F}=\left\{P\left|P_{\theta}(Y | X), \theta \in \mathbf{R}^{n}\right\}\right . \ \ \ OR \ \ \mathcal{F}=\left\{f | Y=f_{\theta}(X), \theta \in \mathbf{R}^{n}\right\}
F = { P ∣ P θ ( Y ∣ X ) , θ ∈ R n } O R F = { f ∣ Y = f θ ( X ) , θ ∈ R n }
参数向量θ \theta θ 取值与n n n 维欧式空间R n \mathbf{R}^n R n ,称为参数空间
在监督学习中,策略 就是考虑按照什么样的准则学习或选择最优模型。
损失函数 :是f ( X ) f(X) f ( X ) 和Y Y Y 的非负实值函数,记为L ( Y , f ( X ) ) L(Y, f(X)) L ( Y , f ( X ) ) ,度量模型一次预测的好坏
序号
类型
表达式
(1)
0 - 1损失函数
L ( Y , f ( X ) ) = { 1 , Y ≠ f ( X ) 0 , Y = f ( X ) L(Y, f(X))=\left\{\begin{array}{ll}{1,} & {Y \neq f(X)} \\ {0,} & {Y=f(X)}\end{array}\right. L ( Y , f ( X ) ) = { 1 , 0 , Y ̸ = f ( X ) Y = f ( X )
(2)
平方损失函数
L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 L(Y, f(X))=(Y-f(X))^{2} L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2
(3)
绝对损失函数
$L(Y, f(X))=
(4)
对数(似然)损失函数
L ( Y , P ( Y ) ) = − log P ( Y ) L(Y, P(Y)) = -\log P(Y) L ( Y , P ( Y ) ) = − log P ( Y )
输入、输出( X , Y ) (X,Y) ( X , Y ) 是随机变量,遵循联合分布P ( X , Y ) P(X,Y) P ( X , Y ) ,所以损失函数的期望为:
R e x p ( f ) = E P [ L ( Y , f ( X ) ) ] = ∫ X × Y L ( y , f ( x ) ) P ( x , y ) d x d y
R_{\mathrm{exp}}(f)=E_{P}[L(Y, f(X))]=\int_{\mathcal{X} \times \mathcal{Y}} L(y, f(x)) P(x, y) \mathrm{d} x d y
R e x p ( f ) = E P [ L ( Y , f ( X ) ) ] = ∫ X × Y L ( y , f ( x ) ) P ( x , y ) d x d y
这是理论上模型f ( X ) f(X) f ( X ) 关于联合分布P ( X , Y ) P(X,Y) P ( X , Y ) 平均意义下的损失,称为风险函数 或期望损失 ,用于度量平 均意义下模型预测的好坏。学习的目标就是选择期望风险最小的模型 。
由于联合分布P ( X , Y ) P(X,Y) P ( X , Y ) 未知,R exp ( f ) R_{\exp }(f) R exp ( f ) 不能直接求出。事实上,如果已知P ( X , Y ) P(X,Y) P ( X , Y ) 则可以间接求出条件概 率P ( Y ∣ X ) P(Y|X) P ( Y ∣ X ) ,因此,也不需要学习,正是由于联合分布未知,所以才进行学习。一方面,最小化期望风险需要 用到联合分布,另一方面。联合分布又未知,所以监督学就成为一个病态问题(ill-formed problem)。
给定训练数据集T { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) } T \{(x_1,y_1), (x_2,y_2),...,(x_n,y_n)\} T { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) } ,模型f ( X ) f(X) f ( X ) 关于训练数据集的平均损失称为经验 风险 或经验损失 , 记为R e m p R_{e m p} R e m p :
R e m p ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) )
R_{\mathrm{emp}}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)
R e m p ( f ) = N 1 i = 1 ∑ N L ( y i , f ( x i ) )
经验风险最小化(ERM) :
min f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) )
\min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)
f ∈ F min N 1 i = 1 ∑ N L ( y i , f ( x i ) )
其中F \mathcal{F} F 是假设空间。当样本容量足够大时,经验风险最小化能保证很好的学习效果,在显示中被广泛应 用。如极大似然估计就是经验风险最小化的一个例子。当模型是条件概率分布,损失函数是对数损失函数 时,经验风险最小化等价于极大似然估计 。
结构风险最小化(SRM) :
min f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f )
\min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f)
f ∈ F min N 1 i = 1 ∑ N L ( y i , f ( x i ) ) + λ J ( f )
结构风险最小化是为了防止过拟合而提出的策略。结构风险最小化等价于正则化。结构风险小的模型往 往对训练数据集和未知的测试数据集都具有较好的预测。如贝叶斯估计的最大后验概率估计就是结构风险最 小化的一个例子。当模型是条件概率分布,损失函数是对数损失函数,模型的复杂度模型的先验概率表示 时,结构风险最小化等价于最大化后验概率。
1.4 模型评估与模型选择
训练误差 :
R enp ( f ^ ) = 1 N ∑ i = 1 N L ( y i , f ^ ( x i ) )
R_{\text { enp }}(\hat{f})=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, \hat{f}\left(x_{i}\right)\right)
R enp ( f ^ ) = N 1 i = 1 ∑ N L ( y i , f ^ ( x i ) )
测试误差 :
e t e s t = 1 N ′ ∑ i = 1 N ′ L ( y i , f ^ ( x i ) )
e_{\mathrm{test}}=\frac{1}{N^{\prime}} \sum_{i=1}^{N^{\prime}} L\left(y_{i}, \hat{f}\left(x_{i}\right)\right)
e t e s t = N ′ 1 i = 1 ∑ N ′ L ( y i , f ^ ( x i ) )
当损失函数是0-1损失时,测试误差就成了常见的测试数据集的误差率:
e t e s t = 1 N ′ ∑ i = 1 N ′ I ( y i ≠ f ^ ( x i ) )
e_{\mathrm{test}}=\frac{1}{N^{\prime}} \sum_{i=1}^{N^{\prime}} I\left(y_{i} \neq \hat{f}\left(x_{i}\right)\right)
e t e s t = N ′ 1 i = 1 ∑ N ′ I ( y i ̸ = f ^ ( x i ) )
相应地,常见的测试数据集的准确率(Accuracy)为:
r test = 1 N ′ ∑ i = 1 N ′ I ( y i = f ^ ( x i ) )
r_{\text { test }}=\frac{1}{N^{\prime}} \sum_{i=1}^{N^{\prime}} I\left(y_{i}=\hat{f}\left(x_{i}\right)\right)
r test = N ′ 1 i = 1 ∑ N ′ I ( y i = f ^ ( x i ) )
显然:r test + e test = 1 r_{\text { test }}+e_{\text { test }}=1 r test + e test = 1
泛化误差 :
R e x p ( f ^ ) = E P [ L ( Y , f ^ ( X ) ) ] = ∫ X × Y L ( y , f ^ ( x ) ) P ( x , y ) d x d y
R_{\mathrm{exp}}(\hat f)=E_{P}[L(Y, \hat f(X))]=\int_{\mathcal{X} \times \mathcal{Y}} L(y, \hat f(x)) P(x, y) \mathrm{d} x d y
R e x p ( f ^ ) = E P [ L ( Y , f ^ ( X ) ) ] = ∫ X × Y L ( y , f ^ ( x ) ) P ( x , y ) d x d y
泛化误差上界 :1)是样本容量的函数,当样本容量增加时,泛化上界趋于0;是假设空间的容量的函 数,假设空间容量越大,模型就越复杂,泛化误差上界就越大。
定理(泛化误差上界) :对二分类问题,当假设空间是有限个函数的集合F = { f 1 , f 2 , ⋯  , f d } \mathcal{F}=\left\{f_{1}, f_{2}, \cdots, f_{d}\right\} F = { f 1 , f 2 , ⋯ , f d } ,对任意 一个函数的集合f ∈ F f \in \mathcal{F} f ∈ F ,至少以概率1 − δ 1-\delta 1 − δ ,以下不等式成立:
R ( f ) ⩽ R ^ ( f ) + ε ( d , N , δ )
R(f) \leqslant \hat{R}(f)+\varepsilon(d, N, \delta)
R ( f ) ⩽ R ^ ( f ) + ε ( d , N , δ )
ε ( d , N , δ ) = 1 2 N ( log d + log 1 δ )
\varepsilon(d, N, \delta)=\sqrt{\frac{1}{2 N}\left(\log d+\log \frac{1}{\delta}\right)}
ε ( d , N , δ ) = 2 N 1 ( log d + log δ 1 )
其中,期望风险R ( f ) = E [ L ( Y , f ( X ) ) ] R(f)=E[L(Y, f(X))] R ( f ) = E [ L ( Y , f ( X ) ) ] ,经验风险R ^ ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) \hat{R}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right) R ^ ( f ) = N 1 ∑ i = 1 N L ( y i , f ( x i ) )