语音识别概念

概述

输出的最小单位，可以有以下几种方式：

Phoneme是音素，可以理解为一种注音符或音标。这种方式依赖Lexicon，不同语言的Lexicon都会有差异。Lexicon是词汇与因素之间的对应关系。

Grapheme是书写的最小单位，如英文的26个字母，中文的文字等，这就不需要依赖语言学专家的Lexicon了。

Word是常见的词，不同语言中，可能出现的词会有很大的差异，有些甚至没法枚举。

Morpheme是介于Grapheme和Word之间的，有一定的含义。

统计了2019年，100+篇论文中，使用的token占比，如下：

语音特征

下面是常用的特征提取过程：
frame是指包含N个采样点的小片段，一般控制在25ms-35ms，以16KHz的采样率来说，每毫秒包含16个采样点，那么，25ms的时间片段中，包含400个sample point。
frame移动的step为10ms，所以，1s的语音片段，会有100个frames.

目前，常见的feature有MFCC和filter bank output。
如果想了解更多的信息，可以参考：http://ocw.aca.ntu.edu.tw/ntu-ocw/ocw/cou/104S204/7