摘要:
語音分離是從帶背景干擾的語音中抽取目標語音的任務。傳統的,語音分離是信號處理問題的研究課題。最近的一些方法將語音分離當做有監督學習研究課題,基於訓練數據獲得語音、說話人和背景噪聲的區分性模式。在過去十年裏提出了許多有監督分離算法。特別地,近期的基於深度學習的有監督語音分離顯著提升了語音分離效果。本文綜述性描述最近幾年基於深度學習的有監督語音分離的進展。首先,介紹語音分離的背景以及有監督分離的表達式。討論有監督分離的三個重要組成部分:學習機器、訓練目標和聲學特徵。綜述中大部分文章是基於單麥克方案,包含語音增強(語音和非語音的分類)、說話人分離(多個說話人的分類)、語音去混響,多麥克方案也是這些。本文討論了有監督學習特有的泛化問題。本文從歷史的視角探討研究進展是如何產生的。另外,我們討論了一些概念問題,包括目標源的組成是什麼。
第一部分 介紹
語音分離的目標是從背景干擾中分離出目標語音。語音分離是信號處理的基礎任務,具有廣泛的應用,包括聽覺恢復術、手機通訊以及魯棒自動語音和說話人識別。人類聽覺系統具備從多混合源中提取單一聲音源的非凡能力。在雞尾酒宴會的聲學環境中,一個人可以追蹤固定目標人的聲音,雖然周圍有很多人聲干擾和噪聲干擾。語音分離任務也稱之爲“雞尾酒宴會問題”,Cherry於1953年提出。
語音分離是聲源分離的特例。感覺上,源分離對應聽覺流分離,聽覺感知領域的擴展研究主題。最早針對流分離的系統性研究是Miller和Heise,他們提出xx。
我們人類處理語音分離的能力如何?噪聲環境下度量人類語音感知能力的一種方式是測量言語感受閾(speech reception threshold, SRT),即對於50%可懂值所需要的信噪比。
Miller通過加入各種tone、寬帶噪聲、其它人聲干擾來度量對可懂值的影響。通過測試聽衆的字可懂值,結果如上圖顯示,對可懂值影響最大的是寬帶噪聲,其次是多個人聲干擾。
語音分離分爲單麥和多麥克陣列方案。單麥克的兩個傳統方案是語音增強(speech enhancement)和計算聽覺場景分析(CASA)。語音增強分析語音和噪聲的統計量,從帶噪語音中估計出噪聲,從而獲得乾淨語音的估計。最簡單也是使用最廣的的語音增強方法是譜減法,從帶噪語音的功率譜中減去噪聲的功率譜。爲了估計背景噪聲,語音增強假設背景噪聲是平穩信號,即譜屬性不隨着時間變化,或者相對語音而言是穩定的。CASA是基於聽覺場景分析的感知原則,探索一些其它維度線索,如pitch和onset。
基於多麥克的陣列方案是另一種思路。波束形成或者說空間濾波,通過覈實的陣列配置,來增強不同方向的信號,抑制其它方向的干擾。最簡單的波束形成是delay-and-sum技術方案。主要是利用相位差來削弱其它方向信號。噪聲衰減的數量依賴陣列的空間尺寸和配置,通常來說隨着麥克風個數和陣列長度的增加衰減越快。顯然,空間濾波不能解決目標源和干擾源同向的情況。而且,波束形成在混響環境下效果會下降,因爲混響會污染聲源的方向。
近年來一種新的語音分離方案被提出,即基於有監督學習方案。有監督語音分離的原始公式來源於CASA領域的時頻掩碼(TF masking)。作爲分離的一種方案,時頻掩碼應用一個二維的mask作用於帶噪語譜圖,從而獲得乾淨語譜圖的目的。CASA的主要目標是理想而知掩碼(IBM),用於表徵目標信號在T-F單元上的權重。聽覺研究表明,不論是對於正常聽覺人羣還是聽覺受損人羣,理想二值掩蔽可以顯著提升噪聲環境的語音可懂度。將IBM作爲計算目標,語音分離成爲一個二分類問題,IBM就成了預測目標,可以通過有監督方案進行學習。
第二部分 classifiers and learning machines
近十年來,深度神經網絡在多個領域取得突破性進展,包括語音分離領域。本章節簡要介紹有監督語音分離所用深度神經網絡的類別:前饋多層感知器、卷積神經網絡、遞歸神經網絡以及通用對抗網絡。
第三部分 訓練目標
在監督性語音分離任務,對於學習和泛化來說,定義一個合適的訓練目標是至關重要的。主要有兩組訓練目標,masking-based和mapping-based. 基於masking的目標描述了安靜語音和背景干擾的時頻關係,基於mapping的目標對應安靜語音的譜表徵,是一種迴歸方法。
在討論目標之前,先介紹下語音分離任務的評價標準。依據研究領域的不同,度量標準有好幾類,有兩大類:signal-level和perception-level。信號層面,標準主要度量信號增強的度或者干擾衰減的度。除了信噪比,還有語音失真度、噪聲殘留這些單獨可測量的。比較全面的度量指標有SDR (source-to-distortion ratio), SIR (source-to-interference ratio), and SAR (source-to-artifact ratio)。
語音分離系統的輸出最終是送入用戶的耳朵,因此,學術界嘗試將聽衆的感受進行量化。可懂度和質量是其中兩類。
。。。
對於語音質量,PESQ(perceptual evaluation of speech quality)是權威標準,由國際電信聯盟制定。
第四部分 特徵
- Ideal binary mask
- Target binary mask
- Ideal ratio mask
- Spectral magnitude mask
- Phase-sensitive mask
- Complex ideal ratio mask
- Target magnitude spectrum
- Gammatone frequency target power spectrum
- Signal approximation
第五部分 單通道分離算法
- Speech enhancement
- Generalization of speech enhancement algorithms
- Speech dereverberation and denoising
- Speaker separation
第六部分 陣列分離算法