機器學習基石（林軒田）第四章筆記與感悟總結

老師提出了一個難以學習的例子。我們無法知道未知的東西，但是我們想要推斷未知的東西。

有什麼工具對未知的 f 做一些推論？？？例如對瓶子裏的彈珠顏色比例進行推論。

思路是進行抽樣。引入了大數定律。證明了抽樣是十分可行的一種方案。

probably 大概，approximately 大約。

不依賴於初試分佈狀態 μ。我們本來就不知道。容忍度設的多一些，抽樣數多一些，則越接近。

如下圖，我們首先初試了一個 h ，通過抽樣判斷 h 是不是我們想要的。

虛線表示我們不知道。我們就用手上抓的彈珠用來判斷 h 到底和 f 一不一樣？我們就可以用我們知道的東西來推斷我們不知道的東西。

我們這種方法只能證明在Ein較小的時候，Eout的可能性也很小，h和f很接近。但是當Ein很大時，我們只能得到f和g很不接近。只能用來排除錯誤，沒有真正的學習！故叫做Verification

我們可以使用以往的記錄來驗證一些規則，來檢驗規則成立的可能性。

例如朋友告訴你了股市規則，你可以用以往的數據來進行驗證。

我們又很多h，怎麼辦？假如有個h在我們的資料上全對，我們要不要選它？

硬幣遊戲，假如我們的h假設是硬幣只能是正面。150個人，有一個人5次全都是上面，我們接不接受正面？？？

答案是不接受。我們會犯錯誤，偏見的錯誤，有選擇的時候，不好的那種情形就很容易發生。我們很有可能恰好選擇了哪一種極端分佈的抽樣，從而錯誤的驗證了我們的假設、

我們判斷好不好的方法是 Ein 和 Eout 一不一樣。比如實際上硬幣是均勻分佈。但是我們恰好選擇了5次全都正面的那個樣本來檢驗我們的假設，往往會產生錯誤的判斷。

不好的數據《=》不能自由的選擇《=》Ein 和 Eout 差很遠

橫排是各種假設，縱列是數據。bad說明是雷區，有雷區則不能採用這個數據集，因爲只要有bad，我們很可能就對那同樣一行的hi做出錯誤判斷。

通過計算，我們得到了壞數據集可能的上界。我們最合理的選擇是，選擇一個 g ，這個g的計算Ein是最小的！

我們證明了在有限的 |H| 中，學習是大概率可行的。如果是無限的 |H|中呢？請看第五章。

機器學習的可行性，但只要加一些假設，比如統計學上的假設，就可以做到了。

機器學習基石（林軒田）第四章 筆記與感悟總結