交叉驗證（Cross Validation）簡介

鏈接：http://blog.csdn.net/holybin/article/details/27185659

一、訓練集 vs. 測試集

在模式識別（pattern recognition）與機器學習（machine learning）的相關研究中，經常會將數據集（dataset）分爲訓練集（training set）跟測試集（testing set）這兩個子集，前者用以建立模型（model），後者則用來評估該模型對未知樣本進行預測時的精確度，正規的說法是泛化能力（generalization ability）。怎麼將完整的數據集分爲訓練集跟測試集，必須遵守如下要點：

1、只有訓練集纔可以用在模型的訓練過程中，測試集則必須在模型完成之後才被用來評估模型優劣的依據。
2、訓練集中樣本數量必須夠多，一般至少大於總樣本數的50%。
3、兩組子集必須從完整集合中均勻取樣。
其中最後一點特別重要，均勻取樣的目的是希望減少訓練集/測試集與完整集合之間的偏差（bias），但卻也不易做到。一般的作法是隨機取樣，當樣本數量足夠時，便可達到均勻取樣的效果，然而隨機也正是此作法的盲點，也是經常是可以在數據上做手腳的地方。舉例來說，當辨識率不理想時，便重新取樣一組訓練集/測試集，直到測試集的識別率滿意爲止，但嚴格來說這樣便算是作弊了。

二、交叉驗證（Cross Validation）

交叉驗證（Cross Validation）是用來驗證分類器的性能一種統計分析方法，基本思想是把在某種意義下將原始數據（dataset）進行分組，一部分做爲訓練集（training set），另一部分做爲驗證集（validation set），首先用訓練集對分類器進行訓練，在利用驗證集來測試訓練得到的模型（model），以此來做爲評價分類器的性能指標。常見的交叉驗證方法如下：

1、Hold-Out Method

將原始數據隨機分爲兩組，一組做爲訓練集，一組做爲驗證集，利用訓練集訓練分類器，然後利用驗證集驗證模型，記錄最後的分類準確率爲此分類器的性能指標。此種方法的好處的處理簡單，只需隨機把原始數據分爲兩組即可，其實嚴格意義來說Hold-Out Method並不能算是CV，因爲這種方法沒有達到交叉的思想，由於是隨機的將原始數據分組，所以最後驗證集分類準確率的高低與原始數據的分組有很大的關係，所以這種方法得到的結果其實並不具有說服性。

2、Double Cross Validation（2-fold Cross Validation，記爲2-CV）

做法是將數據集分成兩個相等大小的子集，進行兩回合的分類器訓練。在第一回閤中，一個子集作爲training set，另一個便作爲testing set；在第二回閤中，則將training set與testing set對換後，再次訓練分類器，而其中我們比較關心的是兩次testing sets的辨識率。不過在實務上2-CV並不常用，主要原因是training set樣本數太少，通常不足以代表母體樣本的分佈，導致testing階段辨識率容易出現明顯落差。此外，2-CV中分子集的變異度大，往往無法達到“實驗過程必須可以被複制”的要求。

3、K-fold Cross Validation（K-折交叉驗證，記爲K-CV）

將原始數據分成K組（一般是均分），將每個子集數據分別做一次驗證集，其餘的K-1組子集數據作爲訓練集，這樣會得到K個模型，用這K個模型最終的驗證集的分類準確率的平均數作爲此K-CV下分類器的性能指標。K一般大於等於2，實際操作時一般從3開始取，只有在原始數據集合數據量小的時候纔會嘗試取2。K-CV可以有效的避免過學習以及欠學習狀態的發生，最後得到的結果也比較具有說服性。

4、Leave-One-Out Cross Validation（記爲LOO-CV）

如果設原始數據有N個樣本，那麼LOO-CV就是N-CV，即每個樣本單獨作爲驗證集，其餘的N-1個樣本作爲訓練集，所以LOO-CV會得到N個模型，用這N個模型最終的驗證集的分類準確率的平均數作爲此下LOO-CV分類器的性能指標。相比於前面的K-CV，LOO-CV有兩個明顯的優點：
（1）每一回閤中幾乎所有的樣本皆用於訓練模型，因此最接近原始樣本的分佈，這樣評估所得的結果比較可靠。
（2）實驗過程中沒有隨機因素會影響實驗數據，確保實驗過程是可以被複制的。

但LOO-CV的缺點則是計算成本高，因爲需要建立的模型數量與原始數據樣本數量相同，當原始數據樣本數量相當多時，LOO-CV在實作上便有困難幾乎就是不顯示，除非每次訓練分類器得到模型的速度很快，或是可以用並行化計算減少計算所需的時間。

三、使用Cross-Validation時常犯的錯誤

由於實驗室許多研究都有用到 evolutionary algorithms（EA）與 classifiers，所使用的 fitness function 中通常都有用到 classifier 的辨識率，然而把cross-validation 用錯的案例還不少。前面說過，只有 training data 纔可以用於 model 的建構，所以只有 training data 的辨識率纔可以用在 fitness function 中。而 EA 是訓練過程用來調整 model 最佳參數的方法，所以只有在 EA結束演化後，model 參數已經固定了，這時候纔可以使用 test data。那 EA 跟 cross-validation 要如何搭配呢？Cross-validation 的本質是用來估測(estimate)某個 classification method 對一組 dataset 的 generalization error，不是用來設計 classifier 的方法，所以 cross-validation 不能用在 EA的 fitness function 中，因爲與 fitness function 有關的樣本都屬於 training set，那試問哪些樣本纔是 test set 呢？如果某個 fitness function 中用了cross-validation 的 training 或 test 辨識率，那麼這樣的實驗方法已經不能稱爲 cross-validation 了。

EA 與 k-CV 正確的搭配方法，是將 dataset 分成 k 等份的 subsets 後，每次取 1份 subset 作爲 test set，其餘 k-1 份作爲 training set，並且將該組 training set 套用到 EA 的 fitness function 計算中(至於該 training set 如何進一步利用則沒有限制)。因此，正確的 k-CV 會進行共 k 次的 EA 演化，建立 k 個classifiers。而 k-CV 的 test 辨識率，則是 k 組 test sets 對應到 EA 訓練所得的 k 個 classifiers 辨識率之平均值。

交叉驗證（Cross Validation）簡介

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

linux安裝cuda和cudnn

Mellanox網卡開啓SR-IOV

模擬手機設備：使用 Playwright 實現移動端自動化測試

HTML 00 Tutorial

全面系統的AI學習路徑，幫助普通人也能玩轉AI

從零開始：使用 Playwright 腳本錄製實現自動化測試

uni-app實現上拉加載

三大牛人看外國文獻的方法

降採樣，過採樣，欠採樣，子採樣，下采樣

對 MMSE 估計器與 Kalman 濾波器的理解

支持向量機通俗導論（理解SVM的三層境界）

支持向量機SVM-SMO算法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結