林軒田之機器學習課程筆記( how can machines learn better之three learning principles)(32之16)

歡迎轉載,可以關注博客:http://blog.csdn.net/cqy_chen

概要

上節講到了交叉驗證,採用這種方法模擬做測試的過程,從而調整超參數。本節要講到做機器學習的三個錦郎妙計。

奧卡姆剃刀

An explanation of the data should be made as simple as
possible, but no simpler.—Albert Einstein
對數據的解釋應該儘可能的簡單,但不要太簡單。這對應着奧卡姆剃刀。要剔除掉不必要的數據解釋。
在機器學習中,表示的是:The simplest model that fits the data is also the most plausible.

對數據擬合的最簡單的解釋也是最合理的解釋

如下圖所示:
這裏寫圖片描述
在做模型選擇的時候,肯定是選擇左邊的模型,而不是右邊的。
簡單的模型對應着什麼呢?對應着簡單的參數,而不是複雜的參數。假設空間相對更小。

爲什麼簡單說好的呢?如果使用簡單的模型;
1)假設空間更小
2)如果資料是沒用規律的,那麼簡單的模型無法進行擬合
3)如果簡單的模型能夠擬合資料,那麼說明資料是有顯著差異的。

所以在做機器學習的時候一般從簡單模型入手,比如線性的分類器等。

抽樣偏差

在1948年美國總統大選,報社抽樣進行了民調,通過電話。
得到的結果是:Dewey Defeats Truman
杜威擊敗了杜魯門
最後的結果卻是是杜魯門勝出,就是杜魯門總統。

爲什麼呢?因爲報社是通過電話進行民調,那個時候都是上層的人,但是這個樣本和整個人民的樣本分佈式不一樣的。

訓練集和測試集要來自同樣的數據分佈

If the data is sampled in a biased way, learning will produce a similarly biased outcome.

舉一個例子:https://www.netflixprize.com/
這是Netflix在2009年舉辦的一個推薦系統的比賽,如果能夠比它自己的系統提升10%,就能得到100W美金。
這個系統是採用前面一段時間的數據進行訓練,後面一段時間的數據進行測試。如果在整個模型訓練過程中,進行隨機抽樣,那這樣抽樣數據和測試數據就不是同一個分佈啦。模型就會偏差的比較厲害。

所以我們要保證我們的驗證環境和測試環境儘可能的接近

數據偷看

不要偷看資料
If a data set has affected any step in the learning process, its ability to assess the outcome has been compromised.
你在使用數據任何過程都是間接的窺探了數據,所以你在下決策的時候,你要知道,這些數據可能已經被你頭腦中的模型複雜度所污染。

舉一個例子:有八年的股市數據,6年作爲訓練,2年作爲測試。在實際數據中,比如股價波動範圍大,需要做一個歸一化操作。有兩種方法:
1)將這八年的數據全部拿來做歸一化,然後分開測試集和訓練集
2)將6年的訓練集合做歸一化,保存歸一化的參數,然後做測試的時候,將6年的歸一化參數運用到後面測試的兩年。
這兩種操作帶來的結果是不盡相同的,如下圖:
這裏寫圖片描述

if you torture the data long enough, it will confess
這裏再插播兩句:在做kaggle競賽或者其他的比賽的時候,通常我們會將訓練集和測試集一起來進行特徵工程,然後進行分開。因爲我們只是要去預測測試集合的數據,這樣模型會表現更好。但是實際工作中是不應該這樣的,應該是一拿到數據就應該將測試集和訓練集分開。

一般來說完全不偷看資料,很難,可能算法表現也不會太好。要避免數據偷看帶來的代價,通常有兩種做法:
1)非常誠實,數據拿到就將測試資料放在一邊,直到需要進行測試的時候。
2)折中方法,做交叉驗證,但是資料要小心翼翼的做模型選擇。
3)儘量避免使用資料來決定模型,比如做語音模型,一開始就應該將專業知識加入到模型中,而不是看了這些語音數據之後再加入專業知識。這樣可能帶來在未來的語音數據中,這些專業知識表現不好。
4)保持懷疑,無論是看論文還是自己做實驗。

三的力量

機器學習上部分總結,首先是三個領域:
這裏寫圖片描述
然後是三個理論保證:
這裏寫圖片描述
然後是三個模型:
這裏寫圖片描述
然後是模型優化的三個有用的工具:
這裏寫圖片描述

最後是機器學習的三個原則:
1)奧卡姆的剃刀,越簡單的模型越好,但是不要太簡單。
2)抽樣偏差,保證測試環境和驗證環境一致
3)不要數據偷看

後面的課程將會介紹更多的模型:
這裏寫圖片描述

歡迎轉載,可以關注博客:http://blog.csdn.net/cqy_chen

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章