哲哲的ML筆記（十九：如何評估假設函數）

原創

2021-04-14 01:16

1個場景

假如你在用線性迴歸訓練一個預測房價的模型，使用如下的代價函數
$J=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{i})-y^{i})+\lambda \sum_{j=1}^n\theta_j^2$
但是發現在新數據集上進行TEST環節有了很大的誤差，怎麼辦？

根據之前的學習，可以想到的方法有：

訓練更多的樣本
嘗試更少的特徵，目前使用 $x_1, x_2,…x_{100}$ , 從中挑選一小部分
其它維度獲得特徵
增加多項式特徵，如 $x^2_1, x_1x_2…$
增加/減少 $\lambda$

我們不應該隨機選擇上面的某種方法來改進我們的算法，而是運用一些機器學習診斷法來幫助我們知道上面哪些方法對我們的算法是有效的
機器學習診斷法的意思是：這是一種測試法，你通過執行這種測試，能夠深入瞭解某種算法到底是否有用。這通常也能夠告訴你，要想改進一種算法的效果，什麼樣的嘗試，纔是有意義的

評估 $h_\theta(x)$

得到一個非常小的訓練誤差一定是一件好事，但我們已經知道，僅僅是因爲這個假設具有很小的訓練誤差，並不能說明它就一定是一個好的假設函數，比如在下面這個例子中，是典型的過擬合現象。

如何判斷一個假設函數是過擬合的呢？對於這個簡單的例子，我們可以對假設函數進行畫圖，然後觀察圖形趨勢，但對於特徵變量不止一個的情況，還有像有很多特徵變量的問題，想要通過畫出假設函數來進行觀察，就會變得很難甚至是不可能實現。
因此，我們需要另一種方法來評估我們的假設函數過擬合檢驗。爲了檢驗算法是否過擬合，我們將數據分成訓練集和測試集，通常用70%的數據作爲訓練集，用剩下30%的數據作爲測試集。很重要的一點是訓練集和測試集均要含有各種類型的數據，通常我們要對數據進行“洗牌”，然後再分成訓練集和測試集。

對於線性迴歸
模型在訓練數據中學習參數 $\theta$ ，最小化訓練損失函數 $J$
並計算測試集中的誤差函數 $J_{test}(\theta)=\frac{1}{2m_{test}}\sum_{i=1}^{m_{test}}[h_\theta(x^i_{test}-y^i_{test})]^2$
對於邏輯迴歸
模型在訓練數據中學習參數 $\theta$ ，最小化訓練損失函數 $J$

誤分類比率，對於測試集
$error(h_\theta(x),y)=\left\{ \begin{array}{rcl} 1 & & h_\theta(x)\geqq0.5, y=0; h_\theta(x)<0.5, y=1 \\ 0 & & Otherwise \end{array} \right.$
測試集上的平均error, $Test_{error} = \frac{1}{m_{test}}\sum_{i=1}^{m_{test}}error(h_\theta(x^i_{test}), y^i_{test})$