語音信號的預處理

1 概述

語音信號是一種非平穩的時變信號，它攜帶着各種信息。在語音編碼、語音合成、語音識別和語音增強等語音處理中都需要提取語音中包含的各種信息。一般而言語音處理的目的有兩種：一種是對語音信號進行分析，提取特徵參數，用於後續處理；另一種是加工語音信號，例如在語音增強中對含噪語音進行背景噪聲抑制，以獲得相對“乾淨”的語音；在語音合成方中需要對分段語音進行拼接平滑，獲得主觀音質較高的合成語音，這方面的應用同樣是建立在分析並提取語音信號信息的基礎上的。總之，語音信號分析的目的就在於方便有效地提取並表示語音信號所攜帶的信息。

根據所分析的參數類型，語音信號分析可以分成時域分析和變換域（頻域、倒譜域）分析。其中時域分析方法是最簡單、最直觀的方法，它直接對語音信號的時域波形進行分析，提取的特徵參數主要有語音的短時能量和平均幅度、短時平均過零率、短時自相關函數和短時平均幅度差函數等。

2 語音信號的預處理

實際的語音信號是模擬信號，因此在對語音信號進行數字處理之前，首先要將模擬語音信號s(t)以採樣週期T採樣，將其離散化爲s(n)，採用週期的選取應根據模擬語音信號的帶寬（依奈奎斯特採樣定理）來確定，以避免信號的頻域混疊失真。在對離散後的語音信號進行量化處理過程中會帶來一定的量化噪聲和失真。在實際中獲得數字語音的途徑一般有兩種，正式的和非正式的。正式的是指大公司或語音研究機構發佈的被大家認可的語音數據庫，非正式的則是研究者個人錄用軟件或者硬件電路加麥克風隨時隨地錄製的一些發音數據庫，非正式爲初學者，可使用多媒體計算機，安裝相關的音頻處理軟件即可獲得語音數據文件。語音信號的頻率範圍通常是300~3400Hz，一般情況下取採樣率爲8KHZ即可。

有了語音數據文件後，對語音的預處理包括：預加重和加窗分幀等。

2.1 語音信號的預加重處理

對輸入的數字語音信號進行預加重，其目的是爲了對語音的高頻部分進行加重，去除口脣輻射的影響，增加語音的高頻分辨率。一般通過傳遞函數爲的一階FIR高通數字濾波器來實現預加重，其中a爲預加重係數，。設n時刻的語音採樣值爲x(n)，經過預加重處理後的結果爲，這裏a=0.98。

以下是預加重前和預加重後的一段濁音信號及頻譜，可以看出，預加重後的頻譜在高頻部分的幅度得到了提升。

2.2 語音信號的加窗處理

進行預加重數字濾波處理後，接下來進行加窗分幀處理。語音信號是一種隨時間而變化的信號，主要分爲濁音和清音兩大類。濁音的基音週期、清濁音信號幅度和聲道參數等都隨時間而緩慢變化。由於發聲器官的慣性運動，可以認爲在一小段時間裏（一般爲10~30ms）語音信號近似不變，即語音信號具有短時平穩性。這樣，可以把語音信號分爲一些短段（稱爲分析幀）來進行處理。語音信號的分幀是採用可移動的有限長度窗口進行加權的方法來實現的。一般每秒的幀數爲33~100幀，視實際情況而定。分幀雖然可以採用連續分段的方法，但一般要採用交疊分段的方法，這是爲了使幀與幀之間平滑過渡，保持其連續性。前一幀和後一幀的交疊部分稱爲幀移，幀移與幀長的比值一般取0~1/2。

常用的窗有兩種，一種是矩形窗，窗函數如下：