神經網絡1.訓練和測試（train&test）以及相關關係解釋--神經網絡開篇

原創

JINWEI93

2020-02-21 20:32

寫在前面的話：

本人是留韓學生一枚，2016年9月開始碩士課程學習計算機生物識別和生物安全領域主要研究方向是深度學習（機器學習）。

希望自己可以堅持寫博客，既是對知識的鞏固，也是希望和更多的朋友一起學習交流。

我最喜歡的一句話就是不積跬步無以至千里，學習尤其需要這句話。望各君共勉之。

我的聯繫方式在個人資料處有公開，如果有指教或者交流可以聯繫我（電話爲韓國號碼），用戶名的QQ並非本人QQ，是系統自動分配的。

本文爲原創文章轉載請註明出處：http://blog.csdn.net/qq_20259459

原文地址（轉去原文閱讀）

正文：

定義說明：

訓練集是用於發現和預測潛在關係的一組數據（data）。

測試集是用於評估預測關係的強度和效用的一組數據（data）。

運用領域：

測試和訓練集用於智能系統，機器學習，遺傳編程和統計。

二者關係：

在訓練分類器期間，只有訓練集可用。在訓練分類器期間不得使用測試集。測試集僅在測試分類器期間可用。

測試集是獨立於訓練數據但是遵循與訓練數據相同的概率分佈的一組數據。如果適合訓練集的模型也適合測試集合，則發生最小過度擬合。（過擬合問題應該後面會單獨再次說明）

使用方法：

通常把已有數據集分成3部分。

1）訓練集 - > 60％

2）交叉驗證集 - > 20％

3）測試組 - > 20％

用"訓練集"來進行機器學習，然後使用“交叉驗證集”（監督學習），來進行調整以提高參數，然後使用“測試集”，來測試模型的準確性。

注：以上數據分配並不是強制要求，只是經驗提供。如果沒有驗證集我們可以將數據分爲70%和30%。

舉例說明：

現實生活中計算機是沒法像人類一樣的認識事物的，所以人類一直致力於這方面的研究。前輩們已經開發了許多的方法以實現計算機識別的能力，比如SVM等。但是目前來說最火且具有最高識別度的還是深度學習。有許許多多的人投身於中。可以說我們趕上了時代的列車。

如何識別？

這裏我們回到主題。假如我們需要識別一輛小汽車。那麼我們需要有大量的小汽車的圖片（訓練數據），當我們有足夠多的數據的時候我們就可以進行機器學習了。我們告訴計算機這些數據都是小汽車，計算機通過算法（這裏我們將使用深度學習算法）知道什麼是小汽車，具備那些特徵。這樣我們就可以放入我們已有的其他圖片（測試數據），這時計算機會將這些數據進行比對，然後告訴我們哪些是小汽車，哪些不是小汽車。

自此我們將正式進入深度學習的世界。