泛化理论整理

泛化理论的目的就是模型在未知的数据上能够表现的够好。它主要考虑的是模型在训练集样本的损失函数(ERM)达到的最小化的情况下,是否在更广阔的大众化的样本中是否能够达到损失函数最小化,通常是不一定的。

ERM模型empirical risk minimization

  • 广泛数据分布(Population distribution)
  1. 特征Feature(x∈X⊂\(R^d\)):比如一张图片
  2. 标签Label(y∈Y⊂R):比如猫狗分类

这里的x和y其实都是随机变量(有关随机变量的内容可以参考概率论整理 中的随机变量及其分布),(x,y)~P,它们服从于一种概率分布。这个P就是广泛数据分布,但是这个P具体是如何分布的,我们是不知道的。

  • 训练数据集(Trainning Dataset)

由于广泛数据分布我们是不知道的,但是我们可以得到一组训练数据集S=\(\{(x_i,y_i)\}_{i=1}^n\),它是广泛数据分布的一个特例。

  • 最小化的经验损失(empirical risk minimization)

这个其实就是训练损失函数

它表示服从训练数据集概率分布的损失函数。

算法A:x×y->θ,这个θ表示模型参数,输入的是数据x、y,输出的是模型参数θ

  • 模型\(y=f_θ(x)\)

训练好的模型就是找到最好的θ的过程。

  • 推理(Evaluation)

广泛损失(Population risk)

这个D就是广泛数据分布,由于D未知,所以我们取代的另外一些测试数据集。

泛化差距(generalization gap)

它表示的广泛损失和训练损失之间的差距。等式右边是一种常用的写法。对其进行分解

它表示如果我们的训练优化做的比较好,并且训练损失的分布离广泛损失又比较近,那么就是一个比较好的广泛损失结果。

这里我们主要研究的就是泛化差距(Generalization Gap),当存在标签噪声(label noise)的时候,广泛损失是不可能到0的,比如我们推理出来的图片的概率是0.9是猫,0.1是狗。所以无论是Generalization Gap还是Optimization至少有一个不可能到0。

在一个参数量小于样本数的线性回归(Under-para linear reg)中,它的泛化差距是比较小的(~d/n,d是参数量,n是样本数),但是训练损失是比较大的(~\({n-d\over n}σ^2\),\(σ^2\)为方差),因为线性模型过于简单,无法完全拟合好数据。

在一个参数量大于样本数的线性回归(Over-para linear reg)中,泛化差距是比较大的(≥\(σ^2\)),训练损失是比较小的(=0),因为参数量大,可以直接插值。

故而,泛化研究中会基于一个假设,,即存在一个f(前向运算),使得广泛损失趋近于0。否则我们需要考虑超额损失(excess risk),例如过拟合(begin overfitting)。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章