ASR-MFCC特征的物理意义

一.MFCC简介

梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,简称MFCC)是在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性,它与频率的关系可用下式近似表示:
在这里插入图片描述
式中f为频率,单位为Hz。下图展示了Mel频率与线性频率的关系:
在这里插入图片描述
MFCC特征组成(以40维为例):
13维静态系数 + 13维一阶差分系数 + 13维二阶差分系数 + 1维帧能量
其中差分系数用来描述动态特征,也即声学特征在相邻帧间的变化情况。 静态MFCC假设帧与帧之间相互独立,这与实际情况未必符合,比如浊音时相邻帧之间相关程度很高,对应的静态MFCC可能也有较大相关,而动态系数描述了相邻帧的联系,解决了静态MFCC不合理假设可能带来的问题。

二.MFCC特征提取过程

在这里插入图片描述
预加重
语音信号通过一个高通滤波器:
在这里插入图片描述
u值一般取0.9-1.0之间,用以提升高频信息

分帧
因为音频信号是非平稳的,但很多音频处理技术都是基于概率模型进行的,则需要对信号有一个要求:信号是平稳信号。否则其均值方差等统计量没有意义了。为了处理这一个问题,一般都是讲音频信号进行分帧处理,假设每帧内都是平稳的,一般采用20-30ms为一帧,25%,50%,75%的重叠率。重叠是为了避免信号间的变化过大。

加窗
在之后求傅里叶变换时,为了避免频谱泄露,先进行加窗。常用的窗函数就是汉明窗。
在这里插入图片描述
频域转换
将上述加窗后的短时时域信号经过快速傅里叶变换FFT转换到频域。

梅尔刻度滤波器过滤
将信号进行一个平滑,分成几个子带。一般有两种,三角带通滤波器
在这里插入图片描述
还有一种是等高度的梅尔滤波
在这里插入图片描述
由上图可知:
1、低频分辨率高,高频分辨率低。
2、三角滤波会对高频信息的幅度进行一个衰减。
至于三角滤波还是等高梅尔滤波,看实际研究的需要,如果需要子带之间的相对值大小,则衰减有意义,如果不需要子带间的相对大小,则衰减影响不大。
三角带通滤波器有两个主要目的:
对频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰。此外,还可以降低运算量。

对数能量
计算每个滤波器组输出的对数能量,即子带能量
在这里插入图片描述
DCT变换
经DCT变换得到MFCC系数
在这里插入图片描述

三.MFCC的物理含义

MFCC的物理含义就是将语音物理信息(频谱包络和细节)进行编码运算得到的一组特征向量,表示信号频谱的能量在不同频率区间的分布。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章