近似误差 与 估计误差

统计学习方法中说:k值越小,学习的近似误差(approximation error)越小,估计误差(estimation error)越大,反之则相反

http://blog.csdn.net/weixin_37895339/article/details/78794190


近似误差:可以理解为对现有训练集的训练误差。 估计误差:可以理解为对测试集的测试误差。*

近似误差关注训练集,如果近似误差小了会出现过拟合的现象,对现有的训练集能有很好的预测,但是对未知的测试样本将会出现较大偏差的预测。模型本身不是最接近最佳模型。

https://www.zhihu.com/question/60793482

近似误差其实可以理解为模型估计值与实际值之间的差距。 估计误差其实可以理解为模型的估计系数与实际系数之间的差距。

在这个k临近法中其实设定的k值越小,得出的模型是越复杂的,因为k值越小会导致特征空间被划分成更多的子空间(可以理解为模型的项越多)。而k值越大得到的模型其实是越简单的 - -
所以当k值越小,对于训练集的预测更加精确,近似误差会越小(因为你选择了更加复杂的模型去预测训练集)。当k值越大,对于训练集的预测则不会那么准确,所以近似误差会越大(因为你选择了更加简单的模型去预测)。
而另一方面,由于设定了比较小的k值,模型比较复杂就会产生过度拟合(overfitting)的问题。

近似误差,更关注于“训练”。

最小化近似误差,即为使估计值尽量接近真实值,但是这个接近只是对训练样本(当前问题)而言,模型本身并不是最接近真实分布。换一组样本,可能就不近似了。这种只管眼前不顾未来预测的行为,即为过拟合。

估计误差,更关注于“测试”、“泛化”。

最小化估计误差,即为使估计系数尽量接近真实系数,但是此时对训练样本(当前问题)得到的估计值不一定是最接近真实值的估计值;但是对模型本身来说,它能适应更多的问题(测试样本)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章