歡迎轉載,可以關注博客:http://blog.csdn.net/cqy_chen
概要
本節主要講訓練和測試有什麼不一樣。上節中說到機器學習不可行,但是有的情況下是可以的。當假設空間有限,同時資料來自某一個分佈。本節講述當假設空間無限的時候會如何。
前文總結
上節中,我們講到假如測試資料和訓練資料來自同一個分佈,如果假設空間有限,那麼我們說機器學習是可行的。
那麼前面四節中主要圍繞了兩個問題:
1)
2)
那麼上節課中提到的M扮演了什麼角色呢?
當M很小的時候
1)根據霍夫丁不等式,
2)但是當M很小的時候,假設空間可選的假設就很少了,這個時候就會導致不一定能找到一個假設使得
當M很大的時候
1)那麼根據霍夫丁不等式,
2)但是我們可能能找到一個假設使得
那麼能不能將M替換成一個小小的m呢?
假如我們可以找到一個小的m比M小很多,來替換M。是不是就很不錯了呢?
有效的切分直線
回顧上節,我們到底爲什麼會的到很大的M呢?
我們可以看到這裏直接用的加號。
實際的情況呢?比如在PLA中,兩條很相近的直線,那麼他們的
我們以PLA爲例:在二維平面中,有着無數條線,可不可以將這些線進行分類呢?很多線是具有差不多的
如果資料只有一筆,那麼有幾類線呢?只有兩種嘛。一種判斷是+1,一種判斷是-1。
如果有兩個點呢?
這樣就就產生了4種線條。
如果是三個點呢?就產生了8種線條。如果三個點排列在一起的話,就只有6種。
如果是4個點呢?
這個時候是隻有14種線條,而不是16種。
當資料的數量增長的話,根據霍夫丁不等式,有限的線條是遠小於指數式的增長的。那麼就會導致
有效的假設空間
這裏以二分類爲例。假設每條直線將資料分開後,這些資料被判斷爲+1或者-1。那麼,如下圖;
假設空間的線條最大上線是
這裏定義一個函數:增長函數,就是
這裏再簡單點,假如是在一維空間中,只有正方向是+1,負的方向是-1。那麼可以得到
假如假設空間是一個凸集呢?
其實我們得到了如下一些空間的成長函數:
斷點(break point)
這裏再來一個定義,斷點:成長函數是隨着資料的增長而增長的,那麼我們稱第一個不能被完全分割的點爲斷點。
比如在二維的PLA中,前面三個點都可以被劃分開,而到第四個點,就找不到
這樣我們可以得到:
那麼這個斷點到底是多少呢?
這裏留下一個懸念:
我們說斷點個數和資料量以及維度相關,
這樣的數量級。
要後續證明,請聽下回分解。
歡迎轉載,可以關注博客:http://blog.csdn.net/cqy_chen