林軒田之機器學習課程筆記(why can machines learn之training versus testing)(32之5)

歡迎轉載,可以關注博客:http://blog.csdn.net/cqy_chen

概要

本節主要講訓練和測試有什麼不一樣。上節中說到機器學習不可行,但是有的情況下是可以的。當假設空間有限,同時資料來自某一個分佈。本節講述當假設空間無限的時候會如何。

前文總結

上節中,我們講到假如測試資料和訓練資料來自同一個分佈,如果假設空間有限,那麼我們說機器學習是可行的。
這裏寫圖片描述
那麼前面四節中主要圍繞了兩個問題:

1)EinEout?
2)使Ein
那麼上節課中提到的M扮演了什麼角色呢?
這裏寫圖片描述
當M很小的時候
1)根據霍夫丁不等式,EinEout 在大部分情況下都是很接近的。滿足第一個條件。
2)但是當M很小的時候,假設空間可選的假設就很少了,這個時候就會導致不一定能找到一個假設使得Ein 很小。

當M很大的時候
1)那麼根據霍夫丁不等式,EinEout 很大可能不接近。就是機器學習學習不到東西。
2)但是我們可能能找到一個假設使得Ein 很小。

那麼能不能將M替換成一個小小的m呢?
這裏寫圖片描述
假如我們可以找到一個小的m比M小很多,來替換M。是不是就很不錯了呢?

有效的切分直線

回顧上節,我們到底爲什麼會的到很大的M呢?
這裏寫圖片描述
我們可以看到這裏直接用的加號。
實際的情況呢?比如在PLA中,兩條很相近的直線,那麼他們的EinEout 應該是很接近的。這樣的話,其實實際情況是不應該使用加法,而應該去掉重疊的部分:
這裏寫圖片描述
我們以PLA爲例:在二維平面中,有着無數條線,可不可以將這些線進行分類呢?很多線是具有差不多的EinEout 的。我們可以從資料出發,因爲資料是有限的。
如果資料只有一筆,那麼有幾類線呢?只有兩種嘛。一種判斷是+1,一種判斷是-1。
如果有兩個點呢?
這裏寫圖片描述
這樣就就產生了4種線條。
如果是三個點呢?就產生了8種線條。如果三個點排列在一起的話,就只有6種。

這裏寫圖片描述

如果是4個點呢?
這裏寫圖片描述
這個時候是隻有14種線條,而不是16種。
這裏寫圖片描述
當資料的數量增長的話,根據霍夫丁不等式,有限的線條是遠小於指數式的增長的。那麼就會導致EinEout 很接近。所以儘管有很多很多線條,但是如果我們的假設空間的數量增長很慢的話,證明機器學習是可以學習到東西的。

有效的假設空間

這裏以二分類爲例。假設每條直線將資料分開後,這些資料被判斷爲+1或者-1。那麼,如下圖;
這裏寫圖片描述
假設空間的線條最大上線是2N 個。
這裏定義一個函數:增長函數,就是mh(N) ,就是根據資料個數,得到最大的一個假設空間。
這裏寫圖片描述
這裏再簡單點,假如是在一維空間中,只有正方向是+1,負的方向是-1。那麼可以得到 mh(N)=N+1 ,這個是遠遠小於2N .
這裏寫圖片描述
假如假設空間是一個凸集呢?
這裏寫圖片描述
其實我們得到了如下一些空間的成長函數:
這裏寫圖片描述

斷點(break point)

這裏再來一個定義,斷點:成長函數是隨着資料的增長而增長的,那麼我們稱第一個不能被完全分割的點爲斷點。
比如在二維的PLA中,前面三個點都可以被劃分開,而到第四個點,就找不到2N 中劃分方法了,所以我們說二維的PLA的斷點是4。
這樣我們可以得到:
這裏寫圖片描述
那麼這個斷點到底是多少呢?
這裏留下一個懸念:
這裏寫圖片描述
我們說斷點個數和資料量以及維度相關,O(Nk1)
這樣的數量級。

要後續證明,請聽下回分解。
歡迎轉載,可以關注博客:http://blog.csdn.net/cqy_chen

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章