語音信號特徵提取預處理

語音信號是一種常見的時間序列,它以離散信號的形式被編碼,然後使用一定的文件格式來存儲,例如”.wav”。在當前與語音有關的應用中,出了單純的錄製、不做任何處理之後播放之外,幾乎所有的應用都要涉及到語音特徵的提取,例如語音文本轉換、說話人識別、語音情感識別等等。此外,在進行音樂信息檢索(MIR)的時候,也需要類似的處理。
語音特徵提取就是從數字信號中提取出與我們所要得到的主要信息相關的內容,一般會從視域和頻域兩個不同的角度去進行。這些特徵可以從不同的角度去分類。

通常,在進行特徵提取之前,都要對原始序列做一系列的預處理。哪些預處理是必需的呢?常用的有以下幾個:
  1. 聲道轉換(channel conversion)
  2. 預加重(pre-emphasis)
  3. 重採樣(resample)
  4. 組幀(framing)
  5. 加窗(windowing)
    ……
    可以完全按照上述的先後順序進行這五種預處理方法。下面是詳細內容:

1.聲道轉換

如果所要提取的語音特徵不區分聲道,則必須將多聲道的語音轉換成單聲道。假設一個多聲道語音序列爲x(n)有c個聲道,c=1,..,C.則每個聲道對應的序列分別爲:

,要把它轉換成單聲道語音,只需要求得其算數平均值就行了。
是轉換之後的單聲道語音序列。
注:當n=1的時候,就是單聲道的語音,不需要做轉換。

2.預加重

預加重的目的就是隻保留一定頻率範圍的信號。實際上這個過程起到了高通濾波器的作用。具體算法如下:

這裏的k可以取0-1之間的任何數字,但是語音處理通常使用0.9-0.97。
當k=0.97的時候,這個過程的幅頻特性如下所示:
這裏寫圖片描述

顯然,這個一階高通濾波器對高頻信號有着很好的放大作用,而且會大幅度壓縮低頻信號的幅度;同時,還會產生一個相位滯後的效應,這個對高頻信號尤爲明顯。
一般認爲,這個過程會在一定程度上消除"脣齒效應"。

3.重採樣

實際中,我們遇到的語音信號可能來自不同的設備,它們在錄製的時候所設置的參數也不盡相同,最重要的一個就是採樣率。根據奈奎斯特採樣定律,採樣頻率需要大於等於信號本身最大頻率分量的2倍,才能保證能夠拿採樣之後的數據來恢復信號。即:


通常語音的頻率範圍是50Hz–6kHz,樂器聲音的頻率範圍大概是50Hz–8kHz。因此,可以把語音信號按照16kHz的頻率進行重新採樣。這樣既方便處理,也能在適當地提升後續的處理效率,因爲現在的設備的採樣率很多都高於16kHz。
怎麼進行重採樣呢?最簡單的方法當然是抽值和插值。
要使採樣率變小,就抽值,要增大采樣率,就差值。
如對採樣率爲22050Hz的語音信號進行重採樣將最終的採樣率變成16000Hz,效果如下圖所示。
這裏寫圖片描述

4.組幀

雖然數字語音信號是一個隨時間變化的隨機序列,從全局來看它並不是一個平穩隨機過程。但是,在較短的時間內,可以認爲它是一個近似平穩的隨機過程。而一般認爲這段時間的的長度是25--32ms。也就是說,可以按照25--32ms的幀長,把一個離散序列進行分組,每一組就是一幀。聯想一下視頻裏面的幀,就不難理解了。
此外,爲了保證語音信號的連續性,一般不讓相鄰兩幀之間還要有一定的重疊。重疊部分一般佔幀長的1/3--1/2。
如下圖所示,採樣率爲16000Hz的語音序列:

,按照幀長32ms,重疊率75%來進行組幀,得到了1128幀,如下圖:
這裏寫圖片描述

5.加窗

加窗與組幀一起使用。對每一幀,選擇一個窗函數,窗函數的寬度就是幀長。常用的窗函數有矩形窗、漢明窗、漢寧窗、高斯窗等。
以寬度爲512的漢明窗爲例:


寬爲512的漢明窗如下:
這裏寫圖片描述
加窗就相當於把每一幀裏面對應的元素變成它與窗序列對應元素的乘積。
以上就是在時間域對語音信號所進行的一些預處理。
如有不準確的地方,還請大家指出來。
下一篇:時域特徵

參考文獻:
[1]Eyben F. Real-time speech and music classification by large audio feature space extraction[M]. Springer, 2015.
[2]Alan V. Oppenheim, Ronald W. Schafer. Discrete-Time Signal Processing (3rd Edition)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章