歡迎轉載，可以關注博客：http://blog.csdn.net/cqy_chen

概要

上節講到了交叉驗證，採用這種方法模擬做測試的過程，從而調整超參數。本節要講到做機器學習的三個錦郎妙計。

奧卡姆剃刀

An explanation of the data should be made as simple as
possible, but no simpler.—Albert Einstein
對數據的解釋應該儘可能的簡單，但不要太簡單。這對應着奧卡姆剃刀。要剔除掉不必要的數據解釋。
在機器學習中，表示的是：The simplest model that fits the data is also the most plausible.

對數據擬合的最簡單的解釋也是最合理的解釋

如下圖所示：

在做模型選擇的時候，肯定是選擇左邊的模型，而不是右邊的。
簡單的模型對應着什麼呢？對應着簡單的參數，而不是複雜的參數。假設空間相對更小。

爲什麼簡單說好的呢？如果使用簡單的模型；
1）假設空間更小
2）如果資料是沒用規律的，那麼簡單的模型無法進行擬合
3）如果簡單的模型能夠擬合資料，那麼說明資料是有顯著差異的。

所以在做機器學習的時候一般從簡單模型入手，比如線性的分類器等。

抽樣偏差

在1948年美國總統大選，報社抽樣進行了民調，通過電話。
得到的結果是：Dewey Defeats Truman
杜威擊敗了杜魯門
最後的結果卻是是杜魯門勝出，就是杜魯門總統。

爲什麼呢？因爲報社是通過電話進行民調，那個時候都是上層的人，但是這個樣本和整個人民的樣本分佈式不一樣的。

訓練集和測試集要來自同樣的數據分佈

If the data is sampled in a biased way, learning will produce a similarly biased outcome.

舉一個例子：https://www.netflixprize.com/
這是Netflix在2009年舉辦的一個推薦系統的比賽，如果能夠比它自己的系統提升10%，就能得到100W美金。
這個系統是採用前面一段時間的數據進行訓練，後面一段時間的數據進行測試。如果在整個模型訓練過程中，進行隨機抽樣，那這樣抽樣數據和測試數據就不是同一個分佈啦。模型就會偏差的比較厲害。

所以我們要保證我們的驗證環境和測試環境儘可能的接近

數據偷看

不要偷看資料
If a data set has affected any step in the learning process, its ability to assess the outcome has been compromised.
你在使用數據任何過程都是間接的窺探了數據，所以你在下決策的時候，你要知道，這些數據可能已經被你頭腦中的模型複雜度所污染。

舉一個例子：有八年的股市數據，6年作爲訓練，2年作爲測試。在實際數據中，比如股價波動範圍大，需要做一個歸一化操作。有兩種方法：
1）將這八年的數據全部拿來做歸一化，然後分開測試集和訓練集
2）將6年的訓練集合做歸一化，保存歸一化的參數，然後做測試的時候，將6年的歸一化參數運用到後面測試的兩年。
這兩種操作帶來的結果是不盡相同的，如下圖：

if you torture the data long enough, it will confess
這裏再插播兩句：在做kaggle競賽或者其他的比賽的時候，通常我們會將訓練集和測試集一起來進行特徵工程，然後進行分開。因爲我們只是要去預測測試集合的數據，這樣模型會表現更好。但是實際工作中是不應該這樣的，應該是一拿到數據就應該將測試集和訓練集分開。

一般來說完全不偷看資料，很難，可能算法表現也不會太好。要避免數據偷看帶來的代價，通常有兩種做法：
1）非常誠實，數據拿到就將測試資料放在一邊，直到需要進行測試的時候。
2）折中方法，做交叉驗證，但是資料要小心翼翼的做模型選擇。
3）儘量避免使用資料來決定模型，比如做語音模型，一開始就應該將專業知識加入到模型中，而不是看了這些語音數據之後再加入專業知識。這樣可能帶來在未來的語音數據中，這些專業知識表現不好。
4）保持懷疑，無論是看論文還是自己做實驗。

三的力量

機器學習上部分總結，首先是三個領域：

然後是三個理論保證：

然後是三個模型：

然後是模型優化的三個有用的工具：

最後是機器學習的三個原則：
1）奧卡姆的剃刀，越簡單的模型越好，但是不要太簡單。
2）抽樣偏差，保證測試環境和驗證環境一致
3）不要數據偷看

後面的課程將會介紹更多的模型：

歡迎轉載，可以關注博客：http://blog.csdn.net/cqy_chen

林軒田之機器學習課程筆記（ how can machines learn better之three learning principles）（32之16）

概要

奧卡姆剃刀

抽樣偏差

數據偷看

三的力量

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

簡單理解與實驗生成對抗網絡GAN(轉)

林軒田之機器學習課程筆記（ how can machines learn之linear regression）（32之9）

林軒田之機器學習課程筆記（ distilling hidden features之radial basis function network）（32之30）

林軒田之機器學習課程筆記（ how can machines learn之logistic regression）（32之10）

林軒田之機器學習課程筆記（ how can machines learn better之three learning principles）（32之16）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結