深度學習降噪,越來越受到音頻算法工程師的關注,以往每一種算法只能處理一種或者幾種效果的侷限有望
被打破,這是大家都往這個方向研究的原因之一。
下面分享基於rnnoise 開源算法的訓練經驗:
1、效果的好壞,第一取決於噪聲源以及純語音數據的質量,這是深度學習算法的最重要的部分。所以收集
高質量的數據是關鍵。
2、語音信號特徵點的選擇,也是深度學習算法最重要的部分,直接決定了訓練的效果。
3、深度學習模型結構以及其複雜度,這個現在大部分模型都有一定的效果,哪一個更好就需要自己訓練測試。
總的來說:1 = 2 > 3;
鑑於目前現狀,我覺得對於音頻算法工程師做深度學習降噪的困難主要是:
1、高質量數據的收集,因爲目前網上很難找到好的數據,語音識別的數據往往並不純淨。
2、由於第一點的問題,導致深度學習降噪的效果沒有理想的好,甚至對於一些信噪比的噪聲,效果不如基於
噪聲估計的算法,這個時候就需要採取更多的其他的方式來優化。
3、特徵點的選擇以及訓練模型也需要更多的實驗。
附:
rnnoise 降噪算法 與傳統算法對比分析: https://blog.csdn.net/u012514944/article/details/85247753
本文只是簡單分析深度學習降噪目前的挑戰,歡迎大家加音頻算法討論羣:(作者zeark)153268894