MFCC語音識別特徵

原創

2018-09-04 18:49

MFCC全程爲mel frequency cepstral coefficients （梅爾頻率倒譜系數）

過程如下所示：

1.首先是Preemphasis目的是boosting，增加高頻能量，從而提高phone的的識別率

2.然後是加窗，加窗的目的是讓語音信號在一幀內統計特性是固定的，便於構建phone或者subphone分類器。過程如下

上圖所示：每幀窗口25ms，幀位移爲10ms

實際中加窗都用hamming 進行加窗，爲的是避免在窗口邊界處不連續導致後面傅里葉分析時出現問題，

Hamming 加窗算法和矩形加窗如下所示

對應的效果圖如下所示（對比邊界處，可以看到hamming加窗是連續的，而矩陣加窗是非連續的）

3.接下來是Discrete Fourier Transform離散傅里葉變換，目的是得到不同頻帶，每幀信號所包含的能量。

如下圖所示是25ms幀元音[iy]對應的DFT變換

4.接着是Mel filter bank and log，人耳對1000Hz以上的聲音不是很敏感，因此對1000Hz以上的進行log操作，對1000以下的做線性操作，從而提高識別性能

公式如下：

如圖所示：

5.接着是倒譜，即離散傅里葉變換逆變換(The Cepstrum: Inverse Discrete Fourier Transform )

目的是提高語音識別性能，公式如下所示：取前12個參數

6.最後是能量和加速度(Deltas and Energy )

聲音信號具有連續特性，所以在5的基礎之上，添加了速度和加速度特徵信號

能量信號計算公式如下：

速度特徵計算如下：

綜上所示，39維MFCC特徵包括如下信息

參考文獻：

[1]http://practicalcryptography.com/miscellaneous/machine-learning/guide-mel-frequency-cepstral-coefficients-mfccs/#deltas-and-delta-deltas

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.