數據集劃分

原創

羊肉串串魅力无穷

2018-12-14 00:54

使用數據集時，一般將其分爲三段：訓練集、驗證集、測試集。

測試集

決不能使用測試集來進行調優，會造成算法對測試集過擬合。應該把測試集看做非常珍貴的資源，不到最後一步，絕不使用它。
驗證集

由於測試數據集只使用一次，所以，從訓練集中取出一部分數據作爲驗證集（validation set）。驗證集其實就是作爲假的測試集來調優。
交叉驗證

有時候，訓練集數量較小（因此驗證集的數量更小），人們會使用一種被稱爲交叉驗證的方法，這種方法更加複雜些。

可以將訓練集平均分成 5 份，然後我們循環着取其中4份來訓練，其中1份來驗證，最後取所有5次驗證結果的平均值作爲算法驗證結果。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

24小時熱門文章

最新文章

最新評論文章