MFCC全程爲mel frequency cepstral coefficients (梅爾頻率倒譜系數)
過程如下所示:
1.首先是Preemphasis目的是boosting,增加高頻能量,從而提高phone的的識別率
2.然後是加窗,加窗的目的是讓語音信號在一幀內統計特性是固定的,便於構建phone或者subphone分類器。過程如下
上圖所示:每幀窗口25ms,幀位移爲10ms
實際中加窗都用hamming 進行加窗,爲的是避免在窗口邊界處不連續導致後面傅里葉分析時出現問題,
Hamming 加窗算法和矩形加窗如下所示
對應的效果圖如下所示(對比邊界處,可以看到hamming加窗是連續的,而矩陣加窗是非連續的)
3.接下來是Discrete Fourier Transform離散傅里葉變換,目的是得到不同頻帶,每幀信號所包含的能量。
如下圖所示是25ms幀元音[iy]對應的DFT變換
4.接着是Mel filter bank and log,人耳對1000Hz以上的聲音不是很敏感,因此對1000Hz以上的進行log操作,對1000以下的做線性操作,從而提高識別性能
公式如下:
如圖所示:
5.接着是倒譜,即離散傅里葉變換逆變換(The Cepstrum: Inverse Discrete Fourier Transform )
目的是提高語音識別性能,公式如下所示:取前12個參數
6.最後是能量和加速度(Deltas and Energy )
聲音信號具有連續特性,所以在5的基礎之上,添加了速度和加速度特徵信號
能量信號計算公式如下:
速度特徵計算如下:
綜上所示,39維MFCC特徵包括如下信息
參考文獻:
[1]http://practicalcryptography.com/miscellaneous/machine-learning/guide-mel-frequency-cepstral-coefficients-mfccs/#deltas-and-delta-deltas