研讀Speech separation is the task of separating target speech from background interference

摘要:

語音分離是從帶背景干擾的語音中抽取目標語音的任務。傳統的,語音分離是信號處理問題的研究課題。最近的一些方法將語音分離當做有監督學習研究課題,基於訓練數據獲得語音、說話人和背景噪聲的區分性模式。在過去十年裏提出了許多有監督分離算法。特別地,近期的基於深度學習的有監督語音分離顯著提升了語音分離效果。本文綜述性描述最近幾年基於深度學習的有監督語音分離的進展。首先,介紹語音分離的背景以及有監督分離的表達式。討論有監督分離的三個重要組成部分:學習機器、訓練目標和聲學特徵。綜述中大部分文章是基於單麥克方案,包含語音增強(語音和非語音的分類)、說話人分離(多個說話人的分類)、語音去混響,多麥克方案也是這些。本文討論了有監督學習特有的泛化問題。本文從歷史的視角探討研究進展是如何產生的。另外,我們討論了一些概念問題,包括目標源的組成是什麼。

 

第一部分 介紹

語音分離的目標是從背景干擾中分離出目標語音。語音分離是信號處理的基礎任務,具有廣泛的應用,包括聽覺恢復術、手機通訊以及魯棒自動語音和說話人識別。人類聽覺系統具備從多混合源中提取單一聲音源的非凡能力。在雞尾酒宴會的聲學環境中,一個人可以追蹤固定目標人的聲音,雖然周圍有很多人聲干擾和噪聲干擾。語音分離任務也稱之爲“雞尾酒宴會問題”,Cherry於1953年提出。

語音分離是聲源分離的特例。感覺上,源分離對應聽覺流分離,聽覺感知領域的擴展研究主題。最早針對流分離的系統性研究是Miller和Heise,他們提出xx。

我們人類處理語音分離的能力如何?噪聲環境下度量人類語音感知能力的一種方式是測量言語感受閾(speech reception threshold, SRT),即對於50%可懂值所需要的信噪比。

 

 

Miller通過加入各種tone、寬帶噪聲、其它人聲干擾來度量對可懂值的影響。通過測試聽衆的字可懂值,結果如上圖顯示,對可懂值影響最大的是寬帶噪聲,其次是多個人聲干擾。

語音分離分爲單麥和多麥克陣列方案。單麥克的兩個傳統方案是語音增強(speech enhancement)和計算聽覺場景分析(CASA)。語音增強分析語音和噪聲的統計量,從帶噪語音中估計出噪聲,從而獲得乾淨語音的估計。最簡單也是使用最廣的的語音增強方法是譜減法,從帶噪語音的功率譜中減去噪聲的功率譜。爲了估計背景噪聲,語音增強假設背景噪聲是平穩信號,即譜屬性不隨着時間變化,或者相對語音而言是穩定的。CASA是基於聽覺場景分析的感知原則,探索一些其它維度線索,如pitch和onset。

基於多麥克的陣列方案是另一種思路。波束形成或者說空間濾波,通過覈實的陣列配置,來增強不同方向的信號,抑制其它方向的干擾。最簡單的波束形成是delay-and-sum技術方案。主要是利用相位差來削弱其它方向信號。噪聲衰減的數量依賴陣列的空間尺寸和配置,通常來說隨着麥克風個數和陣列長度的增加衰減越快。顯然,空間濾波不能解決目標源和干擾源同向的情況。而且,波束形成在混響環境下效果會下降,因爲混響會污染聲源的方向。

近年來一種新的語音分離方案被提出,即基於有監督學習方案。有監督語音分離的原始公式來源於CASA領域的時頻掩碼(TF masking)。作爲分離的一種方案,時頻掩碼應用一個二維的mask作用於帶噪語譜圖,從而獲得乾淨語譜圖的目的。CASA的主要目標是理想而知掩碼(IBM),用於表徵目標信號在T-F單元上的權重。聽覺研究表明,不論是對於正常聽覺人羣還是聽覺受損人羣,理想二值掩蔽可以顯著提升噪聲環境的語音可懂度。將IBM作爲計算目標,語音分離成爲一個二分類問題,IBM就成了預測目標,可以通過有監督方案進行學習。

第二部分 classifiers and learning machines

近十年來,深度神經網絡在多個領域取得突破性進展,包括語音分離領域。本章節簡要介紹有監督語音分離所用深度神經網絡的類別:前饋多層感知器、卷積神經網絡、遞歸神經網絡以及通用對抗網絡。

第三部分 訓練目標

在監督性語音分離任務,對於學習和泛化來說,定義一個合適的訓練目標是至關重要的。主要有兩組訓練目標,masking-based和mapping-based. 基於masking的目標描述了安靜語音和背景干擾的時頻關係,基於mapping的目標對應安靜語音的譜表徵,是一種迴歸方法。

在討論目標之前,先介紹下語音分離任務的評價標準。依據研究領域的不同,度量標準有好幾類,有兩大類:signal-level和perception-level。信號層面,標準主要度量信號增強的度或者干擾衰減的度。除了信噪比,還有語音失真度、噪聲殘留這些單獨可測量的。比較全面的度量指標有SDR (source-to-distortion ratio), SIR (source-to-interference ratio), and SAR (source-to-artifact ratio)

語音分離系統的輸出最終是送入用戶的耳朵,因此,學術界嘗試將聽衆的感受進行量化。可懂度和質量是其中兩類。

。。。

對於語音質量,PESQperceptual evaluation of speech quality)是權威標準,由國際電信聯盟制定。

第四部分 特徵

  1. Ideal binary mask
  2. Target binary mask
  3. Ideal ratio mask
  4. Spectral magnitude mask
  5. Phase-sensitive mask
  6. Complex ideal ratio mask
  7. Target magnitude spectrum
  8. Gammatone frequency target power spectrum
  9. Signal approximation

第五部分 單通道分離算法

  1. Speech enhancement
  2. Generalization of speech enhancement algorithms
  3. Speech dereverberation and denoising
  4. Speaker separation

 

第六部分 陣列分離算法

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章