歡迎轉載，可以關注博客：http://blog.csdn.net/cqy_chen

概要

本節主要講訓練和測試有什麼不一樣。上節中說到機器學習不可行，但是有的情況下是可以的。當假設空間有限，同時資料來自某一個分佈。本節講述當假設空間無限的時候會如何。

前文總結

上節中，我們講到假如測試資料和訓練資料來自同一個分佈，如果假設空間有限，那麼我們說機器學習是可行的。

那麼前面四節中主要圍繞了兩個問題：

1)Ein和Eout會接近?
2)如何使得Ein變得更小？
那麼上節課中提到的M扮演了什麼角色呢？

當M很小的時候
1）根據霍夫丁不等式，Ein和Eout 在大部分情況下都是很接近的。滿足第一個條件。
2）但是當M很小的時候，假設空間可選的假設就很少了，這個時候就會導致不一定能找到一個假設使得Ein 很小。

當M很大的時候
1）那麼根據霍夫丁不等式，Ein和Eout 很大可能不接近。就是機器學習學習不到東西。
2）但是我們可能能找到一個假設使得Ein 很小。

那麼能不能將M替換成一個小小的m呢？

假如我們可以找到一個小的m比M小很多，來替換M。是不是就很不錯了呢？

有效的切分直線

回顧上節，我們到底爲什麼會的到很大的M呢？

我們可以看到這裏直接用的加號。
實際的情況呢？比如在PLA中，兩條很相近的直線，那麼他們的Ein和Eout 應該是很接近的。這樣的話，其實實際情況是不應該使用加法，而應該去掉重疊的部分：

我們以PLA爲例：在二維平面中，有着無數條線，可不可以將這些線進行分類呢？很多線是具有差不多的Ein和Eout 的。我們可以從資料出發，因爲資料是有限的。
如果資料只有一筆，那麼有幾類線呢？只有兩種嘛。一種判斷是+1，一種判斷是-1。
如果有兩個點呢？

這樣就就產生了4種線條。
如果是三個點呢？就產生了8種線條。如果三個點排列在一起的話，就只有6種。

如果是4個點呢？

這個時候是隻有14種線條，而不是16種。

當資料的數量增長的話，根據霍夫丁不等式，有限的線條是遠小於指數式的增長的。那麼就會導致Ein和Eout 很接近。所以儘管有很多很多線條，但是如果我們的假設空間的數量增長很慢的話，證明機器學習是可以學習到東西的。

有效的假設空間

這裏以二分類爲例。假設每條直線將資料分開後，這些資料被判斷爲+1或者-1。那麼，如下圖；

假設空間的線條最大上線是2N 個。
這裏定義一個函數：增長函數，就是mh(N) ，就是根據資料個數，得到最大的一個假設空間。

這裏再簡單點，假如是在一維空間中，只有正方向是+1，負的方向是-1。那麼可以得到 mh(N)=N+1 ,這個是遠遠小於2N .

假如假設空間是一個凸集呢？

其實我們得到了如下一些空間的成長函數：

斷點（break point）

這裏再來一個定義，斷點：成長函數是隨着資料的增長而增長的，那麼我們稱第一個不能被完全分割的點爲斷點。
比如在二維的PLA中，前面三個點都可以被劃分開，而到第四個點，就找不到2N 中劃分方法了，所以我們說二維的PLA的斷點是4。
這樣我們可以得到：

那麼這個斷點到底是多少呢？
這裏留下一個懸念：

我們說斷點個數和資料量以及維度相關，O(Nk−1)
這樣的數量級。

要後續證明，請聽下回分解。
歡迎轉載，可以關注博客：http://blog.csdn.net/cqy_chen

林軒田之機器學習課程筆記（why can machines learn之training versus testing）（32之5）

概要

前文總結

有效的切分直線

有效的假設空間

斷點（break point）

redis的key亂碼問題和值自增問題

CORS error 但是 status code 是200 OK

一個開源且全面的C#算法實戰教程

一款.NET開源、功能強大、跨平臺的繪圖庫 - OxyPlot

壓縮上傳的GPU數據的方案

使用skopeo同步鏡像

簡單理解與實驗生成對抗網絡GAN(轉)

林軒田之機器學習課程筆記（ how can machines learn之linear regression）（32之9）

林軒田之機器學習課程筆記（ distilling hidden features之radial basis function network）（32之30）

林軒田之機器學習課程筆記（ how can machines learn之logistic regression）（32之10）

林軒田之機器學習課程筆記（ how can machines learn better之three learning principles）（32之16）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結