语音识别语料库的建立与语料收集

语料库,就是存放语言材料的地方。现代概念中的语料库,是指存储在计算机存储器的原始语音或经过处理后代有语言学信息标注的语料文本。语料库研究涉及自然语言文本的采集、存储、加工和统计分析,目的是凭借大规模语料库提供客观全面的数据支持语音识别系统的开发。

语音识别领域中,最关键一歩就是选择适合的语料对其进行识别模型训练,对语料的要求就是要尽可能地覆盖所有的语音语言现象,且数据不能太稀疏。同时针对listensin在线学习的多业务场景,就要训练多个模型,因此设计大词汇量多属性特征的语料库至关重要。

在大词汇量连续语音识别系统中,为了训练鲁棒性强的声学模型,收集语料需要满足以下几条。第一就是要保证训练语料库能包括尽可能多的语言和语音现象,以避免出现声学模型训练数据稀疏的问题。第二是音素的覆盖要全,是指在识别系统中的每一个最小识别单元都应该出现在所设计的语音语料中。要保证声学模型训练的精确,也可以要求识别系统中每一个最小的识别单元在语料中出现的次数要大于一定值。第三是音素要均衡,就是指每个音素单元在语料中出现的次数与别的音素单元相比较,不能出现太大偏差。合理的音素平衡能够在确保音素覆盖率的基础上,有效地控制语音语料库的规模。下面给出语料库的设计需求和关键表的属性:

核心需求

1).说话人信息的保存于维护。

2).语料文本,波形文件,标注文件的保存与更新。

3).训练,测试数据的按需抽取与组合。

4).训练模型的生成与保存。

关键表属性

1).说话人信息的保存与维护。这类数据主要通过保存说话人的编号、姓名、性别、年龄、年级、英语水平、地域等信息来区分不同的说话人。

2).语料文本,波形文件,标注文件的保存与更新。语料文本这类数据主要通过语料标号、语料信息等各种方式保存文本语料。不同用户可以通过查询系统访问这类数据。语音波形文件这类数据主要通过语音文件编号、语音录制文本信息、录制人的信息、语音文件存储位置信息等方式进行保存。用户录音完成后,可以上传本次录音的波形文件,也可以通过整理上传已有的波形文件,系统自动对该文件进行保存,用户可以根据模型训练需要抽取,组合不同的波形文件与标注文件完成训练。标注文件这类数据主要通过标注编号、标注文件对应的波形文件信息、标注文件本身等方式来保存,用户可以通过查询找到相应的标注文件的数据。

3).训练,测试数据的按需抽取与组合。主要是针对不同的业务场景训练不同的识别模型,方便快速从数据库中抽取训练,测试数据集。

4).模型文件的生成与保存。将训练以后的模型文件写入数据库保存。

ASR-CDB逻辑结构图

                           

                                                                                       图1 语料库逻辑结构图

维护扩张

随着公司发展,势必会对语音识别的要求更高。为了方便以后很好的维护该数据库,目前的设计提供如下扩展的接口:

1).当前设计时方便内部训练模型使用,后期可以增加管理员信息表做成个完整的管理与用户分开的DB管理系统。

2).随着业务增长,该数据库也可以增加用户认证,语音采集,后台录音,数据保存等C/S架构的语料库管理系统。

 

灵声讯

整理于2019-03-01

加群和关注公众号请戳下面:

 

                                                                                                                  

                                                                                          

福利小贴士:

理科只是为自己插上腾飞的翅膀,文科才能让你飞黄腾达,同意的点赞,谢谢!

赠送原创诗歌公众号“天一色”,以飨读者!
 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章