機器學習基石第四節筆記

1.首先我們一直說，訓練集，通過訓練數據得出模型。測試集驗證模型的準確率。但是爲什麼要這樣做呢？

答：數學上有一個不等式叫做霍夫丁不等式（Hoeffding’s Inequality），這個不等式:

$\mathbb{P}[|v-u|>\xi ]\leq 2e^{-2\xi ^{2}N}$

當N足夠大的時候，v和u相等的概率很大，意思就是如果我從一大堆數據中，取一部分數據做訓練。如果這個訓練得到的模型的誤差很小，那麼這個模型在這一大堆數據中的誤差也很小。所以我們纔會採取一部分訓練，取擬合整個數據集。

2.但是如果我們的數據集有問題的？訓練的時候最好的，測試最差？

答：假設我們的假設只有M個，也就是從M個模型中挑選最好的。那麼這個M個模型在訓練集的結果應該和測試集一樣。意思就是你訓練的結果不好，測試也不好。說明數據集是好的。如果你訓練的好，測試的不好。那麼你的數據集就有問題。

所以機器學習的流程就變成兩部了

1.使用M個模型對數據集測試

2.M個模型中損失最小的就是target了

、

如果M是有限的，數據量N足夠大，對於A選擇的所有g，都有Eout(g)=Ein(g)；如果A找到了一個g且Ein(g)≈0時，PAC保證了Eout(g)≈0，這時候我們就說學習是可行的。新的問題又出現了，當M無限大的時候（就像在PLA裏有無數條線一樣），那麼我們應該怎麼辦呢？請聽下回講解。
參考：