一, 第一條準則: 沒有免費的午餐!(no free lunch !)
給一堆數據D, 如果任何未知的f (即建立在數據D上的規則)都是有可能的,那麼從這裏做出有意義的推理是不可能的!! doomed !!
如下面這個問題無解(或者勉強說沒有唯一解):
下面這題也是如此:
再來看個”大神“的例子:
已知 (5, 3, 2) => 151022, 求 (7, 2, 5) => ?
鬼才知道!! 即使給你更多已知數據也白搭!因爲有多種自造的規則可以解釋已知數據。
瞬間感覺小學中學做過的好多題(尤其是奧賽類的)都是扯淡的有木有!!不同的理解就會有不同的答案。
如何解決上述存在的問題? 答:做出合理的假設。
二, 關於罐子裏選小球的推論(概論&統計)
這裏主要去看原課件吧。
比較重要的一個霍夫丁不等式(Hoeffding’s Inequality) 。
這裏v 是樣本概率;u 是總體概率。
三,罐子理論與學習問題的聯繫
對於一個固定的假設h, 我們需要驗證它的錯誤率;然後根據驗證的結果選擇最好的h。
四,Real Learning
面對多個h 做選擇時,容易出現問題。比如,某個不好的h 剛好最初的”準確“ 的假象。
隨着h 的增加,出現這種假象的概率會增加。
發生這種現象的原因是訓練數據質量太差。
對於某個假設h, 當訓練數據對於h 是BAD sample 時, 就可能出現問題。
因此,我們希望對於我們面對的假設空間,訓練數據對於其中的任何假設h 都不是BAD sample。
所以,當假設空間有限時(大小爲M)時, 當N 足夠大,發生BAD sample 的概率非常小。
此時學習是有效的。
當假設空間無窮大時(例如感知機空間),我們下一次繼續討論。(提示:不同假設遇到BAD sample 的情況會有重疊)