西瓜书第二章:模型评估与选择

训练误差(traning error):学习器在训练集上的误差,训练误差极小可能产生过拟合(overfitting)。

泛化误差(generalization erro):学习器在新样本上的误差,泛化误差极小可能产生欠拟合(underfitting)。

在机器学习的过程中会将数据分为训练集(training set)、验证集(development set)和测试集(test set),其中训练集用于训练模型,验证集用于评估测试的数据集,测试集是对最终的神经网络做无偏估计。而一般来说我们需要保证训练集和测试集的数据符合同一分布。

留出法(hold-out):将D划分为两个互斥的集合,其中一个作为训练集,另一个作为测试集。

交叉验证法(cross validation):将数据集D划分为k个大小相似的互斥子集,每个子集都尽可能数据分布的一致性,每次用k-1个子集的并集作为训练集,余下的作为测试集,这样可以得到k组训练/测试集,从而可进行k词训练和测试,最终返回这k个测试结果的均值,这种方法也被称为“k折交叉验证”(k-fold cross validation)。若D中有m个元素,且我们将数据集分为m个子集,此时可得到交叉验证法中的一个特例留一法(Leave-One-Out)

自助法(bootstrapping):给定包含m个样本的数据集D,对其进行采样产生数据集D':每次随机从D中挑选一个拷贝放入D',重复m次可得到包含m个样本的数据集D',每个样本抽到的可能性为1/m。,即在m次采样中有36.8%的数据可能未被选择,若将D'作为训练集,D\D'(\表示减法)作为测试集,这样的测试结果称为“包外估计”(out-of-bag estimate)

性能度量(performance measure):衡量模型泛化能力的评价标准,回归任务中常用均方误差(mean squared error).

错误率:

 精度:


查准率(precision):找到正确样本中实际为正确的样本在找到的正确样本中的比例。

查全率(recall):找到的正确样本中实际为正确的样本在所有正确样本中的比例。

平衡点(break-even point):查准率=查全率的点,在该点预测结果与真实情况一致。

F1度量:,其中度量了查全率对查准率的重要性,大于1时查全率影响更大,小于1时查准率影响更大。

ROC(受试者工作特性)曲线:根据学习器的预测结果对样例进行排序,按此顺序逐个把样本作为正例进行预测,以FP为横轴,以TP为纵轴绘制的曲线。首先将TP和FP初始化为0,一次对每个样例划分正例,设前一个标记点座标为(x,y),若为TP,则对应标记点的座标为;若为FP,则对应标记点的座标为.


AUC(area under ROC curve):ROC曲线下的面积。

假设检验(hypothesis test):根据问题的需要对所研究的总体做某种假设H,选取合适的统计量,有实测的样本计算出 统计量的值,并根据预先给定的显著性水平进行检验,做出拒绝或接受假设H的判断。假设是对学习器泛化错误率分布的某种判断或猜想。

方差(使用样本数相同的不同训练集产生的差值):

噪声

偏差(期望输出与真实标记之间的差值):

泛化误差

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章