ASR-MFCC特徵的物理意義

一.MFCC簡介

梅爾倒譜系數(Mel-scale Frequency Cepstral Coefficients,簡稱MFCC)是在Mel標度頻率域提取出來的倒譜參數,Mel標度描述了人耳頻率的非線性特性,它與頻率的關係可用下式近似表示:
在這裏插入圖片描述
式中f爲頻率,單位爲Hz。下圖展示了Mel頻率與線性頻率的關係:
在這裏插入圖片描述
MFCC特徵組成(以40維爲例):
13維靜態係數 + 13維一階差分系數 + 13維二階差分系數 + 1維幀能量
其中差分系數用來描述動態特徵,也即聲學特徵在相鄰幀間的變化情況。 靜態MFCC假設幀與幀之間相互獨立,這與實際情況未必符合,比如濁音時相鄰幀之間相關程度很高,對應的靜態MFCC可能也有較大相關,而動態係數描述了相鄰幀的聯繫,解決了靜態MFCC不合理假設可能帶來的問題。

二.MFCC特徵提取過程

在這裏插入圖片描述
預加重
語音信號通過一個高通濾波器:
在這裏插入圖片描述
u值一般取0.9-1.0之間,用以提升高頻信息

分幀
因爲音頻信號是非平穩的,但很多音頻處理技術都是基於概率模型進行的,則需要對信號有一個要求:信號是平穩信號。否則其均值方差等統計量沒有意義了。爲了處理這一個問題,一般都是講音頻信號進行分幀處理,假設每幀內都是平穩的,一般採用20-30ms爲一幀,25%,50%,75%的重疊率。重疊是爲了避免信號間的變化過大。

加窗
在之後求傅里葉變換時,爲了避免頻譜泄露,先進行加窗。常用的窗函數就是漢明窗。
在這裏插入圖片描述
頻域轉換
將上述加窗後的短時時域信號經過快速傅里葉變換FFT轉換到頻域。

梅爾刻度濾波器過濾
將信號進行一個平滑,分成幾個子帶。一般有兩種,三角帶通濾波器
在這裏插入圖片描述
還有一種是等高度的梅爾濾波
在這裏插入圖片描述
由上圖可知:
1、低頻分辨率高,高頻分辨率低。
2、三角濾波會對高頻信息的幅度進行一個衰減。
至於三角濾波還是等高梅爾濾波,看實際研究的需要,如果需要子帶之間的相對值大小,則衰減有意義,如果不需要子帶間的相對大小,則衰減影響不大。
三角帶通濾波器有兩個主要目的:
對頻譜進行平滑化,並消除諧波的作用,突顯原先語音的共振峯。此外,還可以降低運算量。

對數能量
計算每個濾波器組輸出的對數能量,即子帶能量
在這裏插入圖片描述
DCT變換
經DCT變換得到MFCC係數
在這裏插入圖片描述

三.MFCC的物理含義

MFCC的物理含義就是將語音物理信息(頻譜包絡和細節)進行編碼運算得到的一組特徵向量,表示信號頻譜的能量在不同頻率區間的分佈。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章