(ISLR-note)Chapter5 重抽样方法

一、交叉验证法

1.验证集方法

将数据分为 训练集验证集

2.留一交叉验证法LOOCV

①将一个单独的观测(x1,y1)作为验证集,剩下的观测 {(x2,y2), (x3,y3), … , (xn, yn)}组成训练集。然后在n-1个训练观测上拟合统计学习方法,再对余下的观测根据它的值x1来做yih。MSE1 = (y1 - y1h)^2提供了对于测试误差的一个渐进无偏估计。
②重复这个步骤n次,把(xi, yi)选做验证数据,计算MSEi = (yi - yih)^2 。
对测试均方误差的LOOCV估计是这n个测试误差估计的均值:

CV(n) = 1/n sigmaMSEi

有时也可用最小二乘法来拟合线性或者多项式回归模型,公式为:

CV(n) = 1/n sigma[(yi - yi h)/(1 - hi)]^2
其中hi为杠杆值

留一交叉验证法是一种十分常用的方法,可以在任何一种预测模型的建模过程中使用。

3.k折交叉验证法

将观测集随机地分为k个大小基本一致的组,或者折。第一折作为验证集,然后在剩下的n-1折上拟合模型。均方误差MSE1由保留折的观测计算得出。重复这个步骤k次,每一次把不同的观测组作为验证集,整个过程会得到k个测试误差的估计,MSE1,MSE2,…,MSEk。k折CV估计由这些均值平均计算得到。
注意:
①一般令k=5或k=10。
k折交叉验证法的测试误差的波动比LOOCV的波动要小得多。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章