李宏毅《Speech Recognition》学习笔记1 - 语音识别概念

最近在学习语音识别的知识,发现李宏毅老师今年也出了相应的视频,相应的课件可以从下面的位置获取:http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.html

Youtube视频:
https://youtu.be/AIKu43goh-8
https://youtu.be/BdUeBa6NbXA
https://youtu.be/CGuLuBaLIeI
课件:
http://speech.ee.ntu.edu.tw/~tlkagk/courses/DLHLP20/ASR%20%28v12%29.pdf

语音识别概念

概述

在这里插入图片描述
输出的最小单位,可以有以下几种方式:
在这里插入图片描述
Phoneme是音素,可以理解为一种注音符或音标。这种方式依赖Lexicon,不同语言的Lexicon都会有差异。Lexicon是词汇与因素之间的对应关系。

Grapheme是书写的最小单位,如英文的26个字母,中文的文字等,这就不需要依赖语言学专家的Lexicon了。

在这里插入图片描述
Word是常见的词,不同语言中,可能出现的词会有很大的差异,有些甚至没法枚举。

Morpheme是介于Grapheme和Word之间的,有一定的含义。

在这里插入图片描述
统计了2019年,100+篇论文中,使用的token占比,如下:
在这里插入图片描述

语音特征

下面是常用的特征提取过程:
frame是指包含N个采样点的小片段,一般控制在25ms-35ms,以16KHz的采样率来说,每毫秒包含16个采样点,那么,25ms的时间片段中,包含400个sample point。
frame移动的step为10ms,所以,1s的语音片段,会有100个frames.
在这里插入图片描述
目前,常见的feature有MFCC和filter bank output。
如果想了解更多的信息,可以参考:http://ocw.aca.ntu.edu.tw/ntu-ocw/ocw/cou/104S204/7

在这里插入图片描述
2019年论文中统计的语音特征使用比例如下:
在这里插入图片描述

语音数据

常见的语音数据库,以及相应的语料长度。
在这里插入图片描述

常见模型

在这里插入图片描述
论文中的模型占比

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章