數據集劃分

使用數據集時,一般將其分爲三段:訓練集、驗證集、測試集。

  • 測試集

    決不能使用測試集來進行調優,會造成算法對測試集過擬合。應該把測試集看做非常珍貴的資源,不到最後一步,絕不使用它。

  • 驗證集

    由於測試數據集只使用一次,所以,從訓練集中取出一部分數據作爲驗證集(validation set)。驗證集其實就是作爲假的測試集來調優。

  • 交叉驗證

    有時候,訓練集數量較小(因此驗證集的數量更小),人們會使用一種被稱爲交叉驗證的方法,這種方法更加複雜些。

    可以將訓練集平均分成 5 份,然後我們循環着取其中4份來訓練,其中1份來驗證,最後取所有5次驗證結果的平均值作爲算法驗證結果。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章