機器學習基石第四節筆記

1.首先我們一直說,訓練集,通過訓練數據得出模型。測試集驗證模型的準確率。但是爲什麼要這樣做呢?

答:數學上有一個不等式叫做霍夫丁不等式(Hoeffding’s Inequality),這個不等式:

                                       \mathbb{P}[|v-u|>\xi ]\leq 2e^{-2\xi ^{2}N}

當N足夠大的時候,v和u相等的概率很大,意思就是如果我從一大堆數據中,取一部分數據做訓練。如果這個訓練得到的模型的誤差很小,那麼這個模型在這一大堆數據中的誤差也很小。所以我們纔會採取一部分訓練,取擬合整個數據集。

2.但是如果我們的數據集有問題的?訓練的時候最好的,測試最差?

答:假設我們的假設只有M個,也就是從M個模型中挑選最好的。那麼這個M個模型在訓練集的結果應該和測試集一樣。意思就是你訓練的結果不好,測試也不好。說明數據集是好的。如果你訓練的好,測試的不好。那麼你的數據集就有問題。

 

所以機器學習的流程就變成兩部了

1.使用M個模型對數據集測試

2.M個模型中損失最小的就是target了

如果M是有限的,數據量N足夠大,對於A選擇的所有g,都有Eout(g)=Ein(g);如果A找到了一個g且Ein(g)≈0時,PAC保證了Eout(g)≈0,這時候我們就說學習是可行的。新的問題又出現了,當M無限大的時候(就像在PLA裏有無數條線一樣),那麼我們應該怎麼辦呢?請聽下回講解。
參考:

https://blog.csdn.net/qq_26658823/article/details/78514600

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章