端到端語音識別（四） raw wavform

原創

2018-09-04 12:14

現在的端到端語音識別的第一個“端”大部分還是使用人爲設定的語音特徵，比如FBANK/PLP，更高級的端到端語音識別輸入是語音波形，輸出是文字。
近幾年也有一些工作是使用神經網絡（比如CNN）來學習傳統的特徵提取步驟，取得了跟使用傳統的語音特徵相當的結果，當前這部分工作絕大多數還是基於傳統的HMM框架來做，還沒有跟CTC或者encoder-decoder相結合。

CNN

Google[1]分析了CNN跟mel-scale filterbank之間的關係，convolution layer相當於學習一組FIR濾波器，學習到的這組filter對應的中心頻率曲線跟mel-fb類似。

CLDNN

Google[2]使用一層CNN來抽取特徵，聲學模型使用CLDNN，在2000h數據集上取得了跟log-mel filterbank特徵相當的效果。

第一層稱爲time-convolutional layer，用來學習濾波器參數。
- 每次輸入M個採樣點，幀移10ms
- 使用P個filter，對應於最後的P個頻率輸出
- max pooling，移除語音的short term phase信息

後面使用CLDNN的網絡結構，這裏面的convolutional layer稱爲fConv layer，相當於與頻域信號做卷積，減少spectral variations。

CNN+TDNN

[3]提出了CNN+TDNN的網絡結構，相比於[2]來講，抽取特徵使用NIN的非線性變換來替換pooling，獲得了更快的收斂速度。

Reference

[1].SPEECH ACOUSTIC MODELING FROM RAW MULTICHANNEL WAVEFORMS
[2].Learning the Speech Front-end With RawWaveform CLDNNs
[3].Acoustic modelling from the signal domain using CNNs

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

有哪個軟件可以進行文件識別？學生上班族都在用它

現如今，對於各種不同功能的手機APP，我們的需求也變得越來越大。我們會在手機下載具備美圖功能、聯繫功能或娛樂功能等的軟件，此外，有利於學習、工作的軟件我們也一樣不落下。例如，學生、上班族都在使用的“錄音轉文字助手”APP，這個軟件能夠幫助

2020-07-08 03:40:47

python實現百度語音之語音識別

這篇文字是基於前輩分享的基礎上寫出來的。前輩在這裏： http://blog.sina.com.cn/s/blog_7cedb56d0102vb5p.html http://blog.csdn.net/wolfblood_

2020-07-06 19:28:32

kaldi源碼分析(四)-單音素訓練

文章目錄steps/train_mono.sh steps/train_mono.sh 單音素訓練是使用kaldi進行所有傳統聲學模型訓練的起始部分，尤爲重要。在進行聲學模型訓練時，首先使用單高斯模型進行模型訓練。聲學模型的對齊

2020-07-06 10:47:07

kaldi源碼分析(一)--kaldi腳本

文章目錄數據準備發音詞典 L.fst提取特徵聲學模型訓練語言模型訓練解碼數據準備發音詞典 L.fst 將之前的詞典轉換爲L.fst 以及 topo文件 utils/prepare_lang.sh --position-dep

2020-07-06 10:47:07

kaldi源碼分析(三)-特徵處理

文章目錄特徵相關腳本分析steps/compute_cmvn_stats.sh提取特徵腳本（steps/make_mfcc.sh steps/make_mfcc_pitch.sh steps/make_

2020-07-06 10:47:00

基於srilm的語言模型訓練簡介（一）

文章目錄一、語言模型訓練二、語言模型打分三、語言模型剪枝四、語言模型合併五、語言模型使用詞典限制一、語言模型訓練 ##功能 #讀取分詞後的text文件或者count文件，然後用來輸出最後彙總的count文件或者語言模型 ##參數

2020-07-06 10:47:00

kaldi源碼分析(二)-數據準備

文章目錄kaldi數據準備發音詞典數據準備聲學模型數據準備語言模型數據準備 kaldi數據準備在本次記錄中主要記錄的是發音詞典以及聲學模型的數據準備，語言模型僅僅簡單介紹。發音詞典數據準備發音詞典數據準備的階段主要目的是生成

2020-07-06 10:47:00

Python調用百度語音REST API

（百度的rest接口的部分網址發生了一定的變化，相關代碼已更新）百度通過 REST API 的方式給開發者提供一個通用的 HTTP 接口，基於該接口，開發者可以輕鬆的獲得語音合成與語音識別能力。SDK中只提供了PHP、C和JA

狼血wolfblood

2020-07-06 04:43:41

大量的新聞語料庫

http://media.cnr.cn/option,com_content,task,category,sectionid,11,id,555,Itemid,349.html 我找了好久新聞類的語料總算在這裏找到了不過還要轉化一下頻

2020-07-04 22:47:19

LSTM實現語音識別

序言：語音識別作爲人工智能領域重要研究方向，近幾年發展迅猛，其中RNN的貢獻尤爲突出。RNN設計的目的就是讓神經網絡可以處理序列化的數據。本文筆者將陪同小夥伴們一塊兒踏上語音識別之夢幻旅途，相信此處風景獨好。內容目錄環境準備

2020-07-03 22:01:29

京東智聯雲智能RPA商城應用案例：獨立解決90%以上的顧客諮詢問題，節省了上億成本|百萬人學AI評選

2020 無疑是特殊的一年，而 AI 在開年的這場”戰疫“中表現出了驚人的力量。站在“新十年”的起點上，CSDN【百萬人學AI】評選活動正式啓動。本屆評選活動在前兩屆的基礎上再度升級，設立了「AI優秀案例獎Top 30」、「AI新銳公

2020-07-03 21:41:29

面向客戶體驗的高斯智能服務系統：全方位的智能化輔助提升客戶體驗 | 百萬人學AI評選

2020 無疑是特殊的一年，而 AI 在開年的這場”戰疫“中表現出了驚人的力量。站在“新十年”的起點上，CSDN【百萬人學AI】評選活動正式啓動。本屆評選活動在前兩屆的基礎上再度升級，設立了「AI優秀案例獎Top 30」、「AI新銳公

2020-07-03 19:59:31

好未來 Dolphin-兒童口語表達能力AI自動評測：頂尖AI算法技術與教育理念的有機結合 | 百萬人學AI評選

2020 無疑是特殊的一年，而 AI 在開年的這場”戰疫“中表現出了驚人的力量。站在“新十年”的起點上，CSDN【百萬人學AI】評選活動正式啓動。本屆評選活動在前兩屆的基礎上再度升級，設立了「AI優秀案例獎Top 30」、「AI新銳公

2020-07-03 19:59:31

依圖科技：多個人工智能應用領域達到全球領先水平 | 百萬人學AI評選

2020 無疑是特殊的一年，而 AI 在開年的這場”戰疫“中表現出了驚人的力量。站在“新十年”的起點上，CSDN【百萬人學AI】評選活動正式啓動。本屆評選活動在前兩屆的基礎上再度升級，設立了「AI優秀案例獎Top 30」、「AI新銳公

2020-07-03 19:59:31

咪咕訊飛智能筆記本青春版：超強性能、應用場景豐富 | 百萬人學AI評選

2020 無疑是特殊的一年，而 AI 在開年的這場”戰疫“中表現出了驚人的力量。站在“新十年”的起點上，CSDN【百萬人學AI】評選活動正式啓動。本屆評選活動在前兩屆的基礎上再度升級，設立了「AI優秀案例獎Top 30」、「AI新銳公

2020-07-03 19:59:31

24小時熱門文章

最新文章

最新評論文章