近似誤差 與 估計誤差

統計學習方法中說:k值越小,學習的近似誤差(approximation error)越小,估計誤差(estimation error)越大,反之則相反

http://blog.csdn.net/weixin_37895339/article/details/78794190


近似誤差:可以理解爲對現有訓練集的訓練誤差。 估計誤差:可以理解爲對測試集的測試誤差。*

近似誤差關注訓練集,如果近似誤差小了會出現過擬合的現象,對現有的訓練集能有很好的預測,但是對未知的測試樣本將會出現較大偏差的預測。模型本身不是最接近最佳模型。

https://www.zhihu.com/question/60793482

近似誤差其實可以理解爲模型估計值與實際值之間的差距。 估計誤差其實可以理解爲模型的估計係數與實際係數之間的差距。

在這個k臨近法中其實設定的k值越小,得出的模型是越複雜的,因爲k值越小會導致特徵空間被劃分成更多的子空間(可以理解爲模型的項越多)。而k值越大得到的模型其實是越簡單的 - -
所以當k值越小,對於訓練集的預測更加精確,近似誤差會越小(因爲你選擇了更加複雜的模型去預測訓練集)。當k值越大,對於訓練集的預測則不會那麼準確,所以近似誤差會越大(因爲你選擇了更加簡單的模型去預測)。
而另一方面,由於設定了比較小的k值,模型比較複雜就會產生過度擬合(overfitting)的問題。

近似誤差,更關注於“訓練”。

最小化近似誤差,即爲使估計值儘量接近真實值,但是這個接近只是對訓練樣本(當前問題)而言,模型本身並不是最接近真實分佈。換一組樣本,可能就不近似了。這種只管眼前不顧未來預測的行爲,即爲過擬合。

估計誤差,更關注於“測試”、“泛化”。

最小化估計誤差,即爲使估計係數儘量接近真實係數,但是此時對訓練樣本(當前問題)得到的估計值不一定是最接近真實值的估計值;但是對模型本身來說,它能適應更多的問題(測試樣本)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章