李宏毅《Speech Recognition》學習筆記1 - 語音識別概念

原創

2020-06-20 04:19

最近在學習語音識別的知識，發現李宏毅老師今年也出了相應的視頻，相應的課件可以從下面的位置獲取：http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.html

Youtube視頻：
https://youtu.be/AIKu43goh-8
https://youtu.be/BdUeBa6NbXA
https://youtu.be/CGuLuBaLIeI
課件：
http://speech.ee.ntu.edu.tw/~tlkagk/courses/DLHLP20/ASR%20%28v12%29.pdf

語音識別概念

概述

輸出的最小單位，可以有以下幾種方式：

Phoneme是音素，可以理解爲一種注音符或音標。這種方式依賴Lexicon，不同語言的Lexicon都會有差異。Lexicon是詞彙與因素之間的對應關係。

Grapheme是書寫的最小單位，如英文的26個字母，中文的文字等，這就不需要依賴語言學專家的Lexicon了。

Word是常見的詞，不同語言中，可能出現的詞會有很大的差異，有些甚至沒法枚舉。

Morpheme是介於Grapheme和Word之間的，有一定的含義。

統計了2019年，100+篇論文中，使用的token佔比，如下：

語音特徵

下面是常用的特徵提取過程：
frame是指包含N個採樣點的小片段，一般控制在25ms-35ms，以16KHz的採樣率來說，每毫秒包含16個採樣點，那麼，25ms的時間片段中，包含400個sample point。
frame移動的step爲10ms，所以，1s的語音片段，會有100個frames.

目前，常見的feature有MFCC和filter bank output。
如果想了解更多的信息，可以參考：http://ocw.aca.ntu.edu.tw/ntu-ocw/ocw/cou/104S204/7

2019年論文中統計的語音特徵使用比例如下：

語音數據

常見的語音數據庫，以及相應的語料長度。

常見模型

論文中的模型佔比

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

李宏毅《Speech Recognition》學習筆記3 - Beam Search

最近在學習語音識別的知識，發現李宏毅老師今年也出了相應的視頻，相應的課件可以從下面的位置獲取：http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.html Youtube視頻：

2020-06-20 04:19:37

李宏毅《Speech Recognition》學習筆記4 - CTC

最近在學習語音識別的知識，發現李宏毅老師今年也出了相應的視頻，相應的課件可以從下面的位置獲取：http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.html Youtube視頻：

2020-06-20 04:19:36

kaldi的編譯安裝與報錯解決方法

引入 kaldi是語音識別領域，最常用的一個工具。它自帶了很多特徵提取模塊，能提取MFCC/ivector/xvector等語音特徵；也自帶了很多語音模型代碼，可以直接使用或重新訓練GMM-HMM等模型；它還支持GPU進行訓練。

2020-06-16 05:23:50

語音合成技術新手區&KALDI語音識別新手區

2020-06-02 01:23:31

語言模型

2020-03-17 03:14:50

李宏毅《Speech Recognition》學習筆記2 - LAS

2020-03-13 21:23:43

warp-transducer源碼安裝，warprnnt_pytorch生成

warp-transducer是可以在CPU和GPU上實現並行RNN-transducer的開源庫，現在支持pytroch和tensorflow的調用，主要用來計算RNNTLoss，本文是在ubuntu18.04的系統上進行的。

2020-06-29 00:55:18

李宏毅《Speech Recognition》學習筆記3 - Beam Search

最近在學習語音識別的知識，發現李宏毅老師今年也出了相應的視頻，相應的課件可以從下面的位置獲取：http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.html Youtube視頻：

2020-06-20 04:19:37

李宏毅《Speech Recognition》學習筆記4 - CTC

最近在學習語音識別的知識，發現李宏毅老師今年也出了相應的視頻，相應的課件可以從下面的位置獲取：http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.html Youtube視頻：

2020-06-20 04:19:36

kaldi的編譯安裝與報錯解決方法

引入 kaldi是語音識別領域，最常用的一個工具。它自帶了很多特徵提取模塊，能提取MFCC/ivector/xvector等語音特徵；也自帶了很多語音模型代碼，可以直接使用或重新訓練GMM-HMM等模型；它還支持GPU進行訓練。

2020-06-16 05:23:50

機器之心對俞棟的採訪

轉http://sanwen8.cn/p/5c32E5V.html 機器之心：從您和鄧力老師的那本書《Automatic Speech Recognition： A Deep Learning Approach》出版到現在，您認爲期間深度

2020-06-15 04:37:41

一個典型的語音識別系統

一個典型的語音識別系統標籤：語音識別 2015-01-05 16:56 3966人閱讀評論(0) 收藏舉報分類：自然語言識別研究（9）版權聲明：本文爲博主原創文章，未經博主允許不得轉載。

2020-06-13 10:25:51

語音合成技術新手區&KALDI語音識別新手區

2020-06-02 01:23:31

語言模型

2020-03-17 03:14:50

李宏毅《Speech Recognition》學習筆記2 - LAS

2020-03-13 21:23:43

24小時熱門文章

最新文章

最新評論文章