滴滴單通道語音分離與目標說話人提取和抑制技術進展

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"語音分離(Speech Separation),就是在一個有多個說話人同時說話的場景裏,把不同說話人的聲音分離出來。目標說話人提取(Target Speaker Extraction)則是根據給定的目標說話人信息,把混合語音當中屬於目標說話人的聲音抽取出來。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"下圖彙總了目前主流的語音分離和說話人提取技術在兩個不同的數據集上的性能,一個是 WSJ0-2mix 純淨數據集,只有兩個說話人同時說話,沒有噪聲和混響。WHAM是與之相對應的含噪數據集。可以看到,對於純淨數據集,近兩年單通道分離技術在 SI-SDRi 指標上有明顯的進步,圖中已PSM方法爲界,PSM之前的方法都是基於頻域的語音分離技術,而PSM之後的絕大多數(除了deep CASA)都是基於時域的語音分離方法。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.infoq.cn\/resource\/image\/e6\/6e\/e6b8ab0d50f612f3c57b6a46fa41d06e.png","alt":null,"title":null,"style":null,"href":null,"fromPaste":true,"pastePass":false}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"噪聲場景相對更貼近於真實的環境。目前,對於噪聲場景下的分離技術性能的研究還不是特別完備,我們看到有一些在安靜環境下表現比較好的方法,在噪聲環境下性能下降比較明顯,大多存在幾個 dB 的落差。同時,與純淨數據集相比,噪聲集合下各種方法的性能統計也不是很完備。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}}]}
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章