李宏毅《Speech Recognition》學習筆記4 - CTC

原創

2020-06-20 04:19

最近在學習語音識別的知識，發現李宏毅老師今年也出了相應的視頻，相應的課件可以從下面的位置獲取：http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.html

Youtube視頻：
https://youtu.be/AIKu43goh-8
https://youtu.be/BdUeBa6NbXA
https://youtu.be/CGuLuBaLIeI
課件：
http://speech.ee.ntu.edu.tw/~tlkagk/courses/DLHLP20/ASR%20%28v12%29.pdf

CTC

CTC的全稱是Connectionist Temporal Classification

Model

爲了做到Online speech recognition，encoder只能使用uni-directional RNN，不能使用bi-directional RNN.

然後，將 $h^n$ 直接輸入到線性classifier中，生成對應token distribution。左側爲classifier的設計。
其中， $\phi$ 代表不可識別的符號。

CTC將輸出的token做處理，參考下面的圖。之前看過比較好的介紹，也可以參考：https://zhuanlan.zhihu.com/p/42719047

Train

CTC在訓練過程中，存在的一個問題：因爲文本的長度可能遠小於語音的長度，所以，預測的token要比label多很多，而且，其中，還包含了無效字符 $\phi$ ，那麼，如何讓label和預測的token對齊？

像下面這個案例，就可能有很多做組合，最後的結果都是“好棒”。

在訓練過程中，應該拿哪一個來做label，後面會詳細介紹。

CTC的侷限

CTC一般配合LM一起使用，要不然WER會比較高。所以，有人認爲CTC不屬於end-to-end model的範圍。

CTC的侷限

所以，經過學習以後，可以發現：LAS的encoder就是CTC。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

李宏毅《Speech Recognition》學習筆記3 - Beam Search

最近在學習語音識別的知識，發現李宏毅老師今年也出了相應的視頻，相應的課件可以從下面的位置獲取：http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.html Youtube視頻：

2020-06-20 04:19:37

李宏毅《Speech Recognition》學習筆記1 - 語音識別概念

最近在學習語音識別的知識，發現李宏毅老師今年也出了相應的視頻，相應的課件可以從下面的位置獲取：http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.html Youtube視頻：

2020-06-20 04:19:36

kaldi的編譯安裝與報錯解決方法

引入 kaldi是語音識別領域，最常用的一個工具。它自帶了很多特徵提取模塊，能提取MFCC/ivector/xvector等語音特徵；也自帶了很多語音模型代碼，可以直接使用或重新訓練GMM-HMM等模型；它還支持GPU進行訓練。

2020-06-16 05:23:50

語音合成技術新手區&KALDI語音識別新手區

2020-06-02 01:23:31

語言模型

2020-03-17 03:14:50

李宏毅《Speech Recognition》學習筆記2 - LAS

2020-03-13 21:23:43

warp-transducer源碼安裝，warprnnt_pytorch生成

warp-transducer是可以在CPU和GPU上實現並行RNN-transducer的開源庫，現在支持pytroch和tensorflow的調用，主要用來計算RNNTLoss，本文是在ubuntu18.04的系統上進行的。

2020-06-29 00:55:18

李宏毅《Speech Recognition》學習筆記3 - Beam Search

最近在學習語音識別的知識，發現李宏毅老師今年也出了相應的視頻，相應的課件可以從下面的位置獲取：http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.html Youtube視頻：

2020-06-20 04:19:37

李宏毅《Speech Recognition》學習筆記1 - 語音識別概念

最近在學習語音識別的知識，發現李宏毅老師今年也出了相應的視頻，相應的課件可以從下面的位置獲取：http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.html Youtube視頻：

2020-06-20 04:19:36

kaldi的編譯安裝與報錯解決方法

引入 kaldi是語音識別領域，最常用的一個工具。它自帶了很多特徵提取模塊，能提取MFCC/ivector/xvector等語音特徵；也自帶了很多語音模型代碼，可以直接使用或重新訓練GMM-HMM等模型；它還支持GPU進行訓練。

2020-06-16 05:23:50

機器之心對俞棟的採訪

轉http://sanwen8.cn/p/5c32E5V.html 機器之心：從您和鄧力老師的那本書《Automatic Speech Recognition： A Deep Learning Approach》出版到現在，您認爲期間深度

2020-06-15 04:37:41

一個典型的語音識別系統

一個典型的語音識別系統標籤：語音識別 2015-01-05 16:56 3966人閱讀評論(0) 收藏舉報分類：自然語言識別研究（9）版權聲明：本文爲博主原創文章，未經博主允許不得轉載。

2020-06-13 10:25:51

語音合成技術新手區&KALDI語音識別新手區

2020-06-02 01:23:31

語言模型

2020-03-17 03:14:50

李宏毅《Speech Recognition》學習筆記2 - LAS

2020-03-13 21:23:43

24小時熱門文章

最新文章

最新評論文章