语音识别数据增强方法（google2019年7月论文）

论文：https://arxiv.org/pdf/1904.08779.pdf

要点：

我们构建了一个直接作用于对数梅尔频谱图的增强策略，以帮助网络学习有用的功能。出于以下目的的动机：这些功能应对时间方向的变形，频率信息的部分丢失以及小部分语音片段具有较强的鲁棒性，因此，我们选择了以下变形来制定策略：
1.使用tensorflow的sparse_image_warp函数进行时间扭曲。给定具有τ个时间步长的对数梅尔频谱图，我们将其看作时间轴为水平轴，频率轴为垂直轴的图像。沿水平线在时间步长（W，τ-W）中穿过图像中心的随机点应向左或向右弯曲一段距离w，该距离应从0到时间扭曲的均匀分布中选择沿该线的参数W。我们在边界上固定六个锚点-垂直边缘的四个角和中点。
2.应用频率屏蔽，以便屏蔽f个连续的mel频道[f0，f0 + f），其中f首先从0到频率屏蔽参数F的均匀分布中选择，f0从[0，ν-f ）中选择。 ν是梅尔频率通道的数量。
3.应用时间屏蔽，以便屏蔽t个连续的时间步长[t0，t0 + t），其中，首先从0到时间屏蔽参数T的均匀分布中选择t，然后从[0，τ- t）中选择t0。

我们在时间掩码上引入了一个上限，以使时间掩码的宽度不能超过时间步数的p倍。

这些图从上到下描绘了基本输入的对数梅尔声谱图，未进行增强，时间扭曲，频率屏蔽和时间屏蔽。

图中显示了应用於单个输入的各个增强的示例。将对数梅尔频谱图归一化为平均值为零，因此将掩码值设置为零等效于将其设置为平均值。

这些图从上到下描绘了应用了None，LB和LD策略的基本输入的对数梅尔频谱图。

我们可以考虑应用多个频率和时间掩码的策略。多个掩模可以重叠。在这项工作中，我们主要考虑一系列手工制定的策略，LibriSpeech basic（LB），LibriSpeech double（LD），Switchboard mild（SM）Switchboard strong（SS），其参数汇总在表1中。在图2中，我们展示了一个使用策略LB和LD增强的对数梅尔频谱图的示例。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

语音识别数据增强方法（google2019年7月论文）

要点：

诈骗（杀猪盘）网站进行渗透测试

Python 潮流周刊#50：我最喜欢的 Python 3.13 新特性！

外行也能读懂的网络硬件设备功能原理速成

基於tensorflow和deepspeech的中文語音識別模型，訓練+部署

醫療對話場景的語音識別 |垂直領域（google 2018 論文解讀）

語音識別數據增強方法（google2019年7月論文）

財經知識 | 金融小白學習之旅

beam search解碼原理（斯坦福 2014 論文解讀）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結