MFCC語音識別特徵

MFCC全程爲mel frequency cepstral coefficients (梅爾頻率倒譜系數)

過程如下所示:



1.首先是Preemphasis目的是boosting,增加高頻能量,從而提高phone的的識別率

2.然後是加窗,加窗的目的是讓語音信號在一幀內統計特性是固定的,便於構建phone或者subphone分類器。過程如下


上圖所示:每幀窗口25ms,幀位移爲10ms

實際中加窗都用hamming 進行加窗,爲的是避免在窗口邊界處不連續導致後面傅里葉分析時出現問題,

Hamming 加窗算法和矩形加窗如下所示


對應的效果圖如下所示(對比邊界處,可以看到hamming加窗是連續的,而矩陣加窗是非連續的)


3.接下來是Discrete Fourier Transform離散傅里葉變換,目的是得到不同頻帶,每幀信號所包含的能量。

如下圖所示是25ms幀元音[iy]對應的DFT變換


4.接着是Mel filter bank and log,人耳對1000Hz以上的聲音不是很敏感,因此對1000Hz以上的進行log操作,對1000以下的做線性操作,從而提高識別性能

公式如下:


如圖所示:


5.接着是倒譜,即離散傅里葉變換逆變換(The Cepstrum: Inverse Discrete Fourier Transform )

目的是提高語音識別性能,公式如下所示:取前12個參數


6.最後是能量和加速度(Deltas and Energy )

聲音信號具有連續特性,所以在5的基礎之上,添加了速度和加速度特徵信號

能量信號計算公式如下:


速度特徵計算如下:


綜上所示,39維MFCC特徵包括如下信息



參考文獻:

[1]http://practicalcryptography.com/miscellaneous/machine-learning/guide-mel-frequency-cepstral-coefficients-mfccs/#deltas-and-delta-deltas

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章