林軒田-機器學習基石 課堂筆記(四)Feasibility of Learning

1.Learning is Impossible

課上給出了一個例子,要求通過給出的訓練樣本預測右邊的九宮格輸出結果爲-1還是+1

而實際上無論你回答-1還是+1,我們都可以說你是錯誤的且能給出看似合理的解釋:

再看另一個例子,輸入爲三維的二進制數字。對於5個訓練樣本,分類效果完全正確,但是在3個測試數據上,預測結果卻不一定正確。

因此,學習可能是做不到的,在訓練集中可以求得一個最佳假設g,但是在訓練集外的樣本中,g可能和目標函數f相差甚遠。這被稱爲No Free Lunch定理,NFL定理表明沒有一個學習算法可以在任何領域總是產生最準確的學習器。不管採用何種學習算法,至少存在一個目標函數,能夠使得隨機猜測算法是更好的算法。平常所說的一個學習算法比另一個算法更優越,效果更好,只是針對特定的問題,特定的先驗信息,數據的分佈,訓練樣本的數目,代價或獎勵函數等。從這個例子來看,NFL說明了無法保證一個機器學習算法在D以外的數據集上一定能分類或預測正確,除非加上一些假設條件。


2.Probability to the Rescue

一種補救措施通過上一小節,我們得到一個結論,機器學習無法求得近似目標函數f的假設函數g,機器學習的模型似乎做不到正確預測或分類。那是否有一些工具或方法能對未知的目標函數f做一些推論,讓我們的機器學習模型變得有用呢?

一個裝有大量橙色球和綠色球的罐子,我們隨機取出N個小球作爲樣本,計算N中橙色球的比例v,就能推斷出橙色球在罐子裏的比例u。雖然並不能得出u一定等於v,但從概率的角度上看v在很大程度上接近u的結果。

參考Hoeffding ’s inequality

|v-u|表示vu的接近程度,ε爲此程度的下界,隨着樣本數量N增大,vu相差較大的概率不斷變小,因此可得出“vu近似相等的結論,我們將這個結論稱爲probably approximately correct(PAC)


3.Connection of Learning

將罐子對應於整個輸入空間,一顆顆彈珠對應於輸入的一個個x,橘色彈珠表示x對應的h(x)!=f(x),綠色彈珠表示x對應的h(x)=f(x)。現在我們假設有一個固定的h已知,然後我們抓出100個彈珠作爲一個樣本集,那麼我們從這個樣本集中橘色彈珠的比例大概可以檢驗出h在這個樣本集上的表現。如果樣本集足夠大且獨立同分布,那麼從樣本集中就可以大概推算出h在整個空間中與f契合的機率是多少。這就是機器學習能夠工作的本質,即我們從樣本數據上得到一個假設從而將其推廣至全局,因爲二者滿足Hoeffding不等式,其二者結論滿足PAC。


引入兩個值Ein(h)Eout(h)Ein(h)表示在抽樣樣本中,h(x)與yn不相等的概率;Eout(h)表示實際所有樣本中,h(x)與f(x)不相等的概率。

表明,Ein(h)=Eout(h)也是PAC的。如果Ein(h)Eout(h)Ein(h)很小,那麼就能推斷出Eout(h)很小,也就是說在該數據分佈P下,h與f非常接近,機器學習的模型比較準確。

N很大的時候,Ein(h)Eout(h),但是並不意味着gf。因爲h是固定的,不能保證Ein(h)足夠小,這時即使Ein(h)Eout(h),也可能使Eout(h)偏大。所以,一般會通過演算法A,選擇最好的h作爲g,使Ein(h)足夠小,從而保證Eout(h)很小。因此真正的學習,是有選擇的。

最後,對於一個固定的假設h(x), 我們需要驗證它的錯誤率,然後根據驗證的結果選擇最好的h(x)。


4.Connection to Real Learning

面對多個h 做選擇時,容易出現問題。比如,某個不好的h在最初有”準確“ 的假象。隨着h 的增加,出現這種假象的概率會增加。

發生這種現象的原因是訓練數據質量太差。

假設有M個hypothesis,其中某一個罐子hM裏面的彈珠全是綠色,我們該不該選擇這個h作爲最後的g?實際上是不應該的。

打個比方,有150個人扔公平的硬幣,至少有一個人連續5次正面向上的概率爲


但這是否說明這枚硬幣就是比較幸運的硬幣,拋出正面的可能性比較大呢?我們知道每個硬幣都是公平的硬幣,拋出正反的概率都爲1/2,因此答案是否定的。一樣的道理,得到的彈珠全是綠色彈珠,也不一定說明罐子裏的彈珠全是綠色彈珠。

當罐子中彈珠數量很多,或拋硬幣的人數很多時,小概率上,就可能會出現Bad Sample:EinEout差別很大的數據集。

可見不同的數據集,對於不同的h,都有可能成爲Bad Sample。只要Dn在某個h上是Bad Sample,那麼Dn就是Bad Sample,只有當Dn在所有的h上都是好的數據,才說明Dn不是Bad Sample,如D1126。因此,我們期望對於我們面對的假設空間,訓練數據集對於其中的任何假設h都不是BAD Sample。

根據hoeffding不等式,Bad Sample的上限爲:


M是h的個數,N是樣本D的數量,ϵ是參數當M有限,N越大,Bad Sample出現的概率就越低,即能保證D對於所有的h都有EinEout,滿足PAC。所以,當假設空間大小M有限時, N 足夠大,通過演算法A任意選擇一個g,發生BAD sample的概率都非常小。至此就證明了機器學習是有效的。

當假設空間無窮大時(例如感知機空間),我們下一次繼續討論。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章