滴滴單通道語音分離與目標說話人提取和抑制技術進展

原創

2020-11-12 14:08

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"語音分離（Speech Separation），就是在一個有多個說話人同時說話的場景裏，把不同說話人的聲音分離出來。目標說話人提取（Target Speaker Extraction）則是根據給定的目標說話人信息，把混合語音當中屬於目標說話人的聲音抽取出來。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"下圖彙總了目前主流的語音分離和說話人提取技術在兩個不同的數據集上的性能，一個是 WSJ0-2mix 純淨數據集，只有兩個說話人同時說話，沒有噪聲和混響。WHAM是與之相對應的含噪數據集。可以看到，對於純淨數據集，近兩年單通道分離技術在 SI-SDRi 指標上有明顯的進步，圖中已PSM方法爲界，PSM之前的方法都是基於頻域的語音分離技術，而PSM之後的絕大多數（除了deep CASA）都是基於時域的語音分離方法。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.infoq.cn\/resource\/image\/e6\/6e\/e6b8ab0d50f612f3c57b6a46fa41d06e.png","alt":null,"title":null,"style":null,"href":null,"fromPaste":true,"pastePass":false}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"噪聲場景相對更貼近於真實的環境。目前，對於噪聲場景下的分離技術性能的研究還不是特別完備，我們看到有一些在安靜環境下表現比較好的方法，在噪聲環境下性能下降比較明顯，大多存在幾個 dB 的落差。同時，與純淨數據集相比，噪聲集合下各種方法的性能統計也不是很完備。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}}]}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

滴滴單通道語音分離與目標說話人提取和抑制技術進展

七天.NET 8操作SQLite入門到實戰 - （2）第七天Blazor班級管理頁面編寫和接口對接

自學編程兩個月，現在我月入 4 萬元

百度安全多篇議題入選Blackhat Asia以硬技術發現“芯”問題

「實戰應用」如何用圖表控件LightningChart創建2D氣泡圖

GtkSharp 設置窗口背景透明

Google Chrome驅動程序 124.0.6367.62（正式版本）去哪下載？

滴滴開源DRouter：一款高效的Android路由框架

基礎架構如何以終爲始，穩定先行？

滴滴開源小桔棱鏡：一款專注移動端操作行爲的利器

讓智能更落地，讓中臺更智能

滴滴客服解決方案平臺建設實踐

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結