Kaldi當中語音數據增強有什麼方法

整理 知乎 https://www.zhihu.com/people/leonjin 回答,如侵權立刪

 

音速擾動sp:將音頻速度擴展爲0.9,1.0,1,1

參考腳本utils/data/perturb_data_dir_speed_3way.sh

音量擾動vp:

參考腳本utils/data/perturb_data_dir_volume.sh

上面兩個都是用sox實現


有加混響和加性噪聲,參考腳本

steps/data/reverberate_data_dir.py

steps/data/augment_data_dir.py

http://www.openslr.org/resources/28/rirs_noises.zip
這個混響包含了real和simulated,用的比較多是simulated中的小房間,中房間,對應房間大小分別是1~10m和10~30m加性的:
http://www.openslr.org/resources/17/musan.tar.gz
這個加性包含人聲babble,音樂背景聲和真實噪聲。這兩個噪聲庫強烈推薦Mark上~另外就是用sox改改音速和音量,這些dither也可以納入考慮

 

2019年新加的頻譜augmentation,內嵌在xconfig中:

spec-augment-layer

該方法需要加大epoch纔可能奏效

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章