李宏毅《Speech Recognition》學習筆記1 - 語音識別概念

最近在學習語音識別的知識,發現李宏毅老師今年也出了相應的視頻,相應的課件可以從下面的位置獲取:http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.html

Youtube視頻:
https://youtu.be/AIKu43goh-8
https://youtu.be/BdUeBa6NbXA
https://youtu.be/CGuLuBaLIeI
課件:
http://speech.ee.ntu.edu.tw/~tlkagk/courses/DLHLP20/ASR%20%28v12%29.pdf

語音識別概念

概述

在這裏插入圖片描述
輸出的最小單位,可以有以下幾種方式:
在這裏插入圖片描述
Phoneme是音素,可以理解爲一種注音符或音標。這種方式依賴Lexicon,不同語言的Lexicon都會有差異。Lexicon是詞彙與因素之間的對應關係。

Grapheme是書寫的最小單位,如英文的26個字母,中文的文字等,這就不需要依賴語言學專家的Lexicon了。

在這裏插入圖片描述
Word是常見的詞,不同語言中,可能出現的詞會有很大的差異,有些甚至沒法枚舉。

Morpheme是介於Grapheme和Word之間的,有一定的含義。

在這裏插入圖片描述
統計了2019年,100+篇論文中,使用的token佔比,如下:
在這裏插入圖片描述

語音特徵

下面是常用的特徵提取過程:
frame是指包含N個採樣點的小片段,一般控制在25ms-35ms,以16KHz的採樣率來說,每毫秒包含16個採樣點,那麼,25ms的時間片段中,包含400個sample point。
frame移動的step爲10ms,所以,1s的語音片段,會有100個frames.
在這裏插入圖片描述
目前,常見的feature有MFCC和filter bank output。
如果想了解更多的信息,可以參考:http://ocw.aca.ntu.edu.tw/ntu-ocw/ocw/cou/104S204/7

在這裏插入圖片描述
2019年論文中統計的語音特徵使用比例如下:
在這裏插入圖片描述

語音數據

常見的語音數據庫,以及相應的語料長度。
在這裏插入圖片描述

常見模型

在這裏插入圖片描述
論文中的模型佔比

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章