機器學習基石(林軒田)第四章 筆記與感悟總結

4.1 Feasibility of Learning - Learning is Impossible

 

老師提出了一個難以學習的例子。我們無法知道未知的東西,但是我們想要推斷未知的東西。



4.2 Feasibility of Learning - Probability to the Rescue

有什麼工具對未知的 f 做一些推論???例如對瓶子裏的彈珠顏色比例進行推論。


思路是進行抽樣。引入了大數定律。證明了抽樣是十分可行的一種方案。


probably 大概,approximately 大約。


不依賴於初試分佈狀態 μ。我們本來就不知道。容忍度設的多一些,抽樣數多一些,則越接近。

4.3 Feasibility of Learning - Connection to Learning

如下圖,我們首先初試了一個 h ,通過抽樣判斷 h 是不是我們想要的。



虛線表示我們不知道。我們就用手上抓的彈珠用來判斷 h 到底和  f   一不一樣?我們就可以用我們知道的東西來推斷我們不知道的東西。


我們這種方法只能證明在Ein較小的時候,Eout的可能性也很小,h和f很接近。但是當Ein很大時,我們只能得到f和g很不接近。只能用來排除錯誤,沒有真正的學習!故叫做Verification



我們可以使用以往的記錄來驗證一些規則,來檢驗規則成立的可能性。

例如朋友告訴你了股市規則,你可以用以往的數據來進行驗證。

4.4 Feasibility of Learning - Connection to Real Learning

我們又很多h,怎麼辦?假如有個h在我們的資料上全對,我們要不要選它?



硬幣遊戲,假如我們的h假設是硬幣只能是正面。150個人,有一個人5次全都是上面,我們接不接受正面???


答案是不接受。我們會犯錯誤,偏見的錯誤,有選擇的時候,不好的那種情形就很容易發生。我們很有可能恰好選擇了哪一種極端分佈的抽樣,從而錯誤的驗證了我們的假設、



我們判斷好不好的方法是 Ein 和 Eout 一不一樣。比如實際上硬幣是均勻分佈。但是我們恰好選擇了5次全都正面的那個樣本來檢驗我們的假設,往往會產生錯誤的判斷。


不好的數據《=》不能自由的選擇《=》Ein 和 Eout 差很遠

橫排是各種假設,縱列是數據。bad說明是雷區,有雷區則不能採用這個數據集,因爲只要有bad,我們很可能就對那同樣一行的hi做出錯誤判斷。



通過計算,我們得到了壞數據集可能的上界。我們最合理的選擇是,選擇一個 g ,這個g的計算Ein是最小的!

 



我們證明了在有限的  |H|  中,學習是大概率可行的。如果是無限的  |H|中呢?請看第五章。



機器學習的可行性,但只要加一些假設,比如統計學上的假設,就可以做到了。






發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章