哲哲的ML笔记（十九：如何评估假设函数）

原創

2021-04-14 01:16

1个场景

假如你在用线性回归训练一个预测房价的模型，使用如下的代价函数
$J=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{i})-y^{i})+\lambda \sum_{j=1}^n\theta_j^2$
但是发现在新数据集上进行TEST环节有了很大的误差，怎么办？

根据之前的学习，可以想到的方法有：

训练更多的样本
尝试更少的特征，目前使用 $x_1, x_2,…x_{100}$ , 从中挑选一小部分
其它维度获得特征
增加多项式特征，如 $x^2_1, x_1x_2…$
增加/减少 $\lambda$

我们不应该随机选择上面的某种方法来改进我们的算法，而是运用一些机器学习诊断法来帮助我们知道上面哪些方法对我们的算法是有效的
机器学习诊断法的意思是：这是一种测试法，你通过执行这种测试，能够深入了解某种算法到底是否有用。这通常也能够告诉你，要想改进一种算法的效果，什么样的尝试，才是有意义的

评估 $h_\theta(x)$

得到一个非常小的训练误差一定是一件好事，但我们已经知道，仅仅是因为这个假设具有很小的训练误差，并不能说明它就一定是一个好的假设函数，比如在下面这个例子中，是典型的过拟合现象。

如何判断一个假设函数是过拟合的呢？对于这个简单的例子，我们可以对假设函数进行画图，然后观察图形趋势，但对于特征变量不止一个的情况，还有像有很多特征变量的问题，想要通过画出假设函数来进行观察，就会变得很难甚至是不可能实现。
因此，我们需要另一种方法来评估我们的假设函数过拟合检验。为了检验算法是否过拟合，我们将数据分成训练集和测试集，通常用70%的数据作为训练集，用剩下30%的数据作为测试集。很重要的一点是训练集和测试集均要含有各种类型的数据，通常我们要对数据进行“洗牌”，然后再分成训练集和测试集。

对于线性回归
模型在训练数据中学习参数 $\theta$ ，最小化训练损失函数 $J$
并计算测试集中的误差函数 $J_{test}(\theta)=\frac{1}{2m_{test}}\sum_{i=1}^{m_{test}}[h_\theta(x^i_{test}-y^i_{test})]^2$
对于逻辑回归
模型在训练数据中学习参数 $\theta$ ，最小化训练损失函数 $J$

误分类比率，对于测试集
$error(h_\theta(x),y)=\left\{ \begin{array}{rcl} 1 & & h_\theta(x)\geqq0.5, y=0; h_\theta(x)<0.5, y=1 \\ 0 & & Otherwise \end{array} \right.$
测试集上的平均error, $Test_{error} = \frac{1}{m_{test}}\sum_{i=1}^{m_{test}}error(h_\theta(x^i_{test}), y^i_{test})$