最近在學習語音識別的知識,發現李宏毅老師今年也出了相應的視頻,相應的課件可以從下面的位置獲取:http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.html
Youtube視頻:
https://youtu.be/AIKu43goh-8
https://youtu.be/BdUeBa6NbXA
https://youtu.be/CGuLuBaLIeI
課件:
http://speech.ee.ntu.edu.tw/~tlkagk/courses/DLHLP20/ASR%20%28v12%29.pdf
語音識別概念
概述
輸出的最小單位,可以有以下幾種方式:
Phoneme是音素,可以理解爲一種注音符或音標。這種方式依賴Lexicon,不同語言的Lexicon都會有差異。Lexicon是詞彙與因素之間的對應關係。
Grapheme是書寫的最小單位,如英文的26個字母,中文的文字等,這就不需要依賴語言學專家的Lexicon了。
Word是常見的詞,不同語言中,可能出現的詞會有很大的差異,有些甚至沒法枚舉。
Morpheme是介於Grapheme和Word之間的,有一定的含義。
統計了2019年,100+篇論文中,使用的token佔比,如下:
語音特徵
下面是常用的特徵提取過程:
frame是指包含N個採樣點的小片段,一般控制在25ms-35ms,以16KHz的採樣率來說,每毫秒包含16個採樣點,那麼,25ms的時間片段中,包含400個sample point。
frame移動的step爲10ms,所以,1s的語音片段,會有100個frames.
目前,常見的feature有MFCC和filter bank output。
如果想了解更多的信息,可以參考:http://ocw.aca.ntu.edu.tw/ntu-ocw/ocw/cou/104S204/7
2019年論文中統計的語音特徵使用比例如下:
語音數據
常見的語音數據庫,以及相應的語料長度。
常見模型
論文中的模型佔比