语音识别数据增强方法(google2019年7月论文)

论文:https://arxiv.org/pdf/1904.08779.pdf

要点:

我们构建了一个直接作用于对数梅尔频谱图的增强策略,以帮助网络学习有用的功能。 出于以下目的的动机:这些功能应对时间方向的变形,频率信息的部分丢失以及小部分语音片段具有较强的鲁棒性,因此,我们选择了以下变形来制定策略:
1.使用tensorflow的sparse_image_warp函数进行时间扭曲。给定具有τ个时间步长的对数梅尔频谱图,我们将其看作时间轴为水平轴,频率轴为垂直轴的图像。沿水平线在时间步长(W,τ-W)中穿过图像中心的随机点应向左或向右弯曲一段距离w,该距离应从0到时间扭曲的均匀分布中选择 沿该线的参数W。我们在边界上固定六个锚点-垂直边缘的四个角和中点。
2.应用频率屏蔽,以便屏蔽f个连续的mel频道[f0,f0 + f),其中f首先从0到频率屏蔽参数F的均匀分布中选择,f0从[0,ν-f )中选择。 ν是梅尔频率通道的数量。
3.应用时间屏蔽,以便屏蔽t个连续的时间步长[t0,t0 + t),其中,首先从0到时间屏蔽参数T的均匀分布中选择t,然后从[0,τ- t)中选择t0。

我们在时间掩码上引入了一个上限,以使时间掩码的宽度不能超过时间步数的p倍。

这些图从上到下描绘了基本输入的对数梅尔声谱图,未进行增强,时间扭曲,频率屏蔽和时间屏蔽。
在这里插入图片描述
图中显示了应用於单个输入的各个增强的示例。 将对数梅尔频谱图归一化为平均值为零,因此将掩码值设置为零等效于将其设置为平均值。
在这里插入图片描述
这些图从上到下描绘了应用了None,LB和LD策略的基本输入的对数梅尔频谱图。

我们可以考虑应用多个频率和时间掩码的策略。 多个掩模可以重叠。 在这项工作中,我们主要考虑一系列手工制定的策略,LibriSpeech basic(LB),LibriSpeech double(LD),Switchboard mild(SM)Switchboard strong(SS),其参数汇总在表1中。在图2中, 我们展示了一个使用策略LB和LD增强的对数梅尔频谱图的示例。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章