整理 知乎 https://www.zhihu.com/people/leonjin 回答,如侵權立刪
音速擾動sp:將音頻速度擴展爲0.9,1.0,1,1
參考腳本utils/data/perturb_data_dir_speed_3way.sh
音量擾動vp:
參考腳本utils/data/perturb_data_dir_volume.sh
上面兩個都是用sox實現
有加混響和加性噪聲,參考腳本
steps/data/reverberate_data_dir.py
steps/data/augment_data_dir.py
http://www.openslr.org/resources/28/rirs_noises.zip
這個混響包含了real和simulated,用的比較多是simulated中的小房間,中房間,對應房間大小分別是1~10m和10~30m加性的:
http://www.openslr.org/resources/17/musan.tar.gz
這個加性包含人聲babble,音樂背景聲和真實噪聲。這兩個噪聲庫強烈推薦Mark上~另外就是用sox改改音速和音量,這些dither也可以納入考慮
2019年新加的頻譜augmentation,內嵌在xconfig中:
spec-augment-layer
該方法需要加大epoch纔可能奏效