對於深度學習中訓練集、驗證集和測試集的理解

  今天整理之前的實驗,準備把之前未完整跑完的實驗做完整時候發現了之前對於訓練集、驗證集和測試集的一些理解的錯誤之處。

0x00. 錯誤的理解

  之前的實驗是語音增強,即降噪。以下是實驗的數據。其中small cv是由於實驗中頻繁使用驗證集而2000句話的驗證集每次運行時間太長,我自己抽離出來的驗證集,問題就出在這裏…
數據統計
  small cv是從tt中抽取的,也就是說我自己做的小驗證集是從測試集中抽取的……這就徹底違背了驗證集的作用,相當於在調整參數過程中,看到了“最好的信息”,以此來調整的參數。這樣當然調參出來的網絡當然是最好的網絡。事實上,在真正訓練過程中,我們是看不到測試集,而在實驗中,測試集是我們自己生成的,即使如此我們也不能看到測試集。

0x01. 正確理解訓練集、驗證集和測試集

  在真正的使用中,訓練集和驗證集是我們可以獲取到的數據,我們通過使用訓練集訓練神經網絡,去把這個網絡使用到去大千世界中。而驗證集的作用是爲了防止模型在訓練集上過擬合,即防止模型學到過多訓練集上特有的特徵
  因此,在本次實驗中,驗證集和訓練集的區別在於驗證集上的噪音和純淨語音的組合方式訓練集上的噪音和語音組合方式不同。例如:訓練集上A語音和a噪聲進行組合成爲帶噪語音,B語音和b噪聲進行組合成爲帶噪語音;爲了防止模型“認爲”A語音只能和a噪聲進行組合,從而學到這種特定組合模式下的帶噪語音的特徵,我們的驗證集A語音和b噪聲組合成爲帶噪語音,B語音和a噪聲組合成爲帶噪語音。
  通過觀察驗證集上評估標準(PESQ或STOI)的增減情況,從而判斷模型是否過擬合。如:pesq衡增階段,模型未過擬合;pesq趨於穩定直至減小時說明模型過擬合。

0x02. 正確的驗證集分配

正確的驗證集分配

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章