語音增強簡介

1.語音增強的目的是從帶噪語音中提取儘可能純淨的原始語音。但由於噪聲信號都是隨機產生的,而且產生的原因和特性相當複雜,因此,完全消除噪聲幾乎不可能。

實際語音增強的目標主要有,提高語音質量和可懂度這兩個指標。

語音增強技術是語音處理的一個重要技術,多年來學者們不懈努力,尋求各種優良的語音增強算法。在近三年的研究中,各種語音增強方法不斷被提出,

如基於小波變換的方法,基於人耳掩蔽效應的方法,基於聽覺屏蔽的語音增強算法,基於最小均方誤差MMSE-LSA語音增強算法,譜減法等,奠定了語音增強理論的基礎並使之逐漸走向成熟。

2.幾種語音增強算法簡介

對於語音增強的分類可以按以下四大塊進行劃分:

1)參數方法:如維納濾波、梳狀濾波器、卡爾曼濾波器等。此類方法依賴於使用的語言

生成模型(例如AR模型),需要提取模型參數(如基音週期、LPC係數),常常使用迭代方法。

如果實際噪音或語音條件與模型有較大的差距或提取模型參數有困難,則此類方法較容易失效。

2)非參數方法:如譜減法、自適應濾波等。因爲不需要從帶噪信號中估計模型參數,非

參數方法的應用範圍較廣,限制比較少。也因爲約束條件較少,沒有利用可能的統計信息,

結果一般不是最優化的。

3)統計方法:如隱馬爾科夫模型、純淨語音譜和帶噪語音譜對應映射、極大後驗概率估

計(MAP),最小均方誤差估計(MMSE)等。統計方法較充分地利用了語音和噪音的統計特

性,一般要建立模型庫,需要訓練過程獲得初始統計參數,與語音識別系統的聯繫很密切。

4)其它方法:如小波濾波、卡維南一洛維變換、人工神經網絡等。這些方法不像前三類

方法那樣成熟,可以概括地稱爲非主流方法。

下面對幾種常用的語音增強算法其進行簡單介紹。

1)噪聲對消法:噪聲對消法的基本原理是從帶噪語音中直接減去噪聲(從頻域或時域均

可)。其最大特點是需要採集背景噪聲作爲參考信號(大部分需要一個或多個麥克風以便採集

背景噪聲數據),參考信號準確與否直接決定着噪聲對消法的性能。在採集背景噪聲時,往

往採用自適應濾波技術,以便使參考信號儘可能接近帶噪語音中的噪聲分量。

2)諧波增強法(自適應梳狀濾波):

語音中的濁音部分能量很大,往往佔據一段語音的大部分能量,同時它具有明顯的週期性。

這種週期性反映到頻域中則爲一系列分別對應基頻(基音)及其諧波的一個個峯值分量,這些頻率分量佔據了整個頻段的大部分能量,利用這種週期性。

可採用自適應梳狀濾波器來提取基音及其諧波分量,抑制其他週期性噪聲和非週期的

寬帶噪聲。由於語音是時變的,語音的基音週期也是不斷變化的,能否準確地估計出基音周

期以及能否及時跟蹤基音變化,是這種基於諧波增強法的關鍵。

3)幅度譜相減法:對帶噪語音信號進行傅立葉變換,在頻域中從帶噪語音的幅度譜上減去噪聲的幅度譜來作爲語音信號的幅度譜。

利用人耳對語音相位的不敏感性,語音相位譜則近似用帶噪語音的相位譜代替。

4)功率譜相減法:這種方法是從帶噪語音功率譜中減去噪聲的功率譜,從而得到語音

信號的功率譜,進而決定語音信號各頻譜分量增益,最終得到語音信號的估計。

5)維納濾波法:維納濾波法是爲得到語音信號的時域波形,在最小均方誤差準則下得

到的最優估計器。實際應用中,多采用非因果維納濾波器的頻域實現形式。

6)語音參數模型法:語音的發聲過程可以建模爲一個線性時變濾波器.對不同類型的語

音採用不同的激勵源。例如對於濁音,可以使用週期與基音週期相同的脈衝串來模擬激勵;

而對於清音,則可以使用高斯白噪聲來模擬。在語音的生成模型中,應用最廣泛的是全極點模型。

基於語音生成模型可以得到一系列語音增強方法,比如時變參數維納濾波及卡爾曼濾波方法。

卡爾曼濾波就是基於語音生成模型的一種有效語音增強方法,它能有效消除有色噪聲。