[深度學習-2.1] 訓練集、驗證集和測試集

原創

2020-06-03 19:16

爲什麼要設置訓練集、驗證集和測試集

在訓練一個神經網路的時候，通常我們最初並不知道怎麼樣的超參數配置才能讓我得到一個高性能的網絡，這些超參數包括神經網絡的層數，每一層的神經元數量，每層的激活函數選擇以及學習率等。所以一般的做法都是先構建一個具有特定結構的神經網絡，然後編程實現，接下來根據程序的輸出結果來更新自己方案以找到更好的神經網絡。
也就是重複下面這樣一個過程

因此更高效的循環能夠讓我們更快的得到一個滿足要求的神經網絡，而合理的訓練集，驗證集和測試集的配置則能幫助提高上圖這個循環的效率。

三者的解釋和區別

訓練集(training set) ：訓練集顧名思義就是用來擬合數據得到一個初步模型的數據部分。
驗證集(development set) ：驗證集是在訓練過程中單獨劃分的少部分樣本，目的是對模型進行初步評估，調整相應的超參數。
測試集(test set) ：測試集用來評價所得到模型的泛化能力，爲了達到這個目的，測試集的數據要保證從未在訓練集和驗證集中出現過。

具體的劃分方式

在機器學習的小數據量時代（數據量在萬這個數量級），常見的做法是將數據三七分，即70%訓練集，30%測試集（沒有訓練集的情況比較常見）；還有60%訓練集，20%驗證集，20%測試集的方式。
但是在大數據的情況下，假設我們有百萬數量級的數據，這時候20%的比例就太高了。常見的比例有98%：1%：1%，或者更低的驗證集和測試集的比例都是可行的。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

自然語言處理-多分類模型搭建

文章目錄一\介紹二\數據處理思路讀取數據提取char和word,轉化爲txt利用上面的txt, 使用word2vec生成模型對每句話根據上面生成的模型,得到對應的向量利用re正則匹配將csv中的word和char做成list,將l

2020-07-03 15:42:14

python連接sqlserver數據庫

python連接sqlserver數據庫 1、python3.6連接sqlserver數據庫需要引入pymssql模塊 2、 pip install pymssql pymssql儘量和自己的python版本一致，我的版本是py

2020-07-02 01:34:40

Tensorflow七種初始化函數

一、tf.constant_initializer(value) 作用：將變量初始化爲給定的常量，初始化一切所提供的值。二、tf.zeros_initializer() 作用：將變量設置爲全0；也可以簡寫爲tf.Zeros()

2020-07-02 01:34:38

RNN循環神經網絡相關知識

循環神經網絡是啥循環神經網絡種類繁多，我們先從最簡單的基本循環神經網絡開始吧。基本循環神經網絡下圖是一個簡單的循環神經網絡如，它由輸入層、一個隱藏層和一個輸出層組成：納尼？！相信第一次看到這個玩意的讀者內心和我一樣是崩潰

2020-07-02 01:34:38

圖注意力模型GAT代碼分析（Keras版）

本文分享一個對Keras版GAT源碼的分析。 GAT原文：https://arxiv.org/abs/1710.10903，建議參考着知乎superbrother大神的文章進行理解。 TensorFlow版可以看：https://gith

翻滚的老鼠屎

2020-06-30 03:30:27

深度學習實戰筆記一：google colab使用入門+mnist數據集入門+Dense層預測

首先kexue上網，進入google雲端硬盤新建->更多->Google Colaboratory 創建了一個新的.ipynb文件可修改該文件的名稱使用google colab的GPU 運行代碼，點擊鏈接，操作

用之有弗盈

2020-06-27 21:12:58

深度學習實戰筆記三：編碼器、解碼器+mnist+kears

對matplotlib的解釋 import matplotlib.pyplot as plt import numpy as np a = [[1,2]] a = np.array(a) c = a[:,0]#‘：'表示：不管a中

用之有弗盈

2020-06-27 21:12:57

深度學習實戰筆記四：在自己處理的數據集上訓練CNN網絡並進行預測

#cnn 識別狗狗類別 #用類構造代碼 #dog圖片的訓練、保存 #預測以及結果輸出 import os import numpy as np from PIL import Image from keras.models im

用之有弗盈

2020-06-27 21:12:57

深度學習實戰筆記二：keras+cnn+mnist cnn模型的創建、保存、調用

google colab的使用、文件路徑設置參見上一篇博客：深度學習筆記一：google colab使用入門+mnist數據集入門+Dense層預測本節筆記參考了Mike高的視頻一個完整的cnn模型 #CNN mnist im

用之有弗盈

2020-06-27 21:12:57

postgresql（psql） windows安裝+ MIMIC III 下載+導入數據庫

本文參考了shuaban的視頻先總結步驟如下：先在psql官網下載數據庫安裝包根據大家反饋導入數據其他版本有問題，最好下載9.6版本安裝：下載之後一般安裝就行安裝過程值得注意的三點： ① 設置數據庫軟件的安裝位置

用之有弗盈

2020-06-27 21:12:46

從代碼案例入門keras1:LeNet對手寫數字Mnist分類

本系列文章適合有深度學習基礎（上過課，看得懂代碼，但是想自己上手覺得困難的初學者）首先上LeNet論文： ===Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. (1998).Gradi

2020-06-27 06:26:38

查找海外人工智能相關資訊時可能會遇到的日語英語專業名詞術語整理（不定期更新）

大家可能日常xx上網翻閱一些國外的文獻參考，也需要搜索一些關鍵詞，這裏整理一些常用詞彙的中，日，英表現以供參考。由於留學狗平時時間也不多，所以不定期更新，多多諒解。（全是我一個一個手打的，轉載請標明出處）狀態空間表達式 state

2020-06-27 06:26:38

keras深度學習入門筆記附錄1：讓我們看看有多少種讓搭建好的模型開始跑的方式（fit 和 train on batch）

https://blog.csdn.net/timcanby/article/details/103620371 上一篇文章我們介紹了怎麼用keras寫一個最簡單的數字分類網絡，但是可能有同學會說我怎麼在不同地方看到的大家跑模型的方法都不

2020-06-27 06:26:38

keras入門筆記2:我們來玩卷積層（ Convolution Layer）～一層卷積層分類Mnist！

哈囉哈囉～繼之前的： keras深度學習入門筆記附錄1：讓我們看看有多少種讓搭建好的模型開始跑的方式（fit 和 train on batch） https://blog.csdn.net/timcanby/article/details

2020-06-27 06:26:38

深度學習入門之基本概念

1、機器學習：根據我的理解，機器學習就是讓電腦自動學習或者是訓練出一個好的模型來解決實際問題。圖一機器學習如上圖所示，模型類似於函數，輸入可能爲向量（圖像矩陣轉化爲向量輸入），輸出可能爲離散值如分類問題（比如手寫數字預測），也

2020-06-26 19:01:10

24小時熱門文章

最新文章

最新評論文章