4.1 Feasibility of Learning - Learning is Impossible
老師提出了一個難以學習的例子。我們無法知道未知的東西,但是我們想要推斷未知的東西。
4.2 Feasibility of Learning - Probability to the Rescue
有什麼工具對未知的 f 做一些推論???例如對瓶子裏的彈珠顏色比例進行推論。
思路是進行抽樣。引入了大數定律。證明了抽樣是十分可行的一種方案。
probably 大概,approximately 大約。
不依賴於初試分佈狀態 μ。我們本來就不知道。容忍度設的多一些,抽樣數多一些,則越接近。
4.3 Feasibility of Learning - Connection to Learning
如下圖,我們首先初試了一個 h ,通過抽樣判斷 h 是不是我們想要的。
虛線表示我們不知道。我們就用手上抓的彈珠用來判斷 h 到底和 f 一不一樣?我們就可以用我們知道的東西來推斷我們不知道的東西。
我們這種方法只能證明在Ein較小的時候,Eout的可能性也很小,h和f很接近。但是當Ein很大時,我們只能得到f和g很不接近。只能用來排除錯誤,沒有真正的學習!故叫做Verification
我們可以使用以往的記錄來驗證一些規則,來檢驗規則成立的可能性。
例如朋友告訴你了股市規則,你可以用以往的數據來進行驗證。
4.4 Feasibility of Learning - Connection to Real Learning
我們又很多h,怎麼辦?假如有個h在我們的資料上全對,我們要不要選它?
硬幣遊戲,假如我們的h假設是硬幣只能是正面。150個人,有一個人5次全都是上面,我們接不接受正面???
答案是不接受。我們會犯錯誤,偏見的錯誤,有選擇的時候,不好的那種情形就很容易發生。我們很有可能恰好選擇了哪一種極端分佈的抽樣,從而錯誤的驗證了我們的假設、
我們判斷好不好的方法是 Ein 和 Eout 一不一樣。比如實際上硬幣是均勻分佈。但是我們恰好選擇了5次全都正面的那個樣本來檢驗我們的假設,往往會產生錯誤的判斷。
不好的數據《=》不能自由的選擇《=》Ein 和 Eout 差很遠
橫排是各種假設,縱列是數據。bad說明是雷區,有雷區則不能採用這個數據集,因爲只要有bad,我們很可能就對那同樣一行的hi做出錯誤判斷。
通過計算,我們得到了壞數據集可能的上界。我們最合理的選擇是,選擇一個 g ,這個g的計算Ein是最小的!
我們證明了在有限的 |H| 中,學習是大概率可行的。如果是無限的 |H|中呢?請看第五章。
機器學習的可行性,但只要加一些假設,比如統計學上的假設,就可以做到了。