架構-LSTM理解總結(1)

原創

2018-09-04 18:49

序列建模和語音識別中常使用RNN，LSTM和GRU，本文就對其進行一個整理和總結。

RNN：

雙向RNN解決了上下文依賴問題，一層隱藏層的Bi-RNN結構如下所示[1]：

其中前向網絡ht依賴ht-1，後項網絡ht依賴ht+1，輸出yt依賴前向ht，也依賴後項ht，其數學表達如下所示：

具有3個隱藏層的Bi-RNN結構如下圖所示：

其數學表達如下所示：其中第i層t時刻的前向隱藏層h依賴t時刻i-1層t時刻的隱藏層，和i層t-1時刻的隱藏層。後向同理。

但是其由於其long-rang context特性導致其解碼等待時間較長，如下圖所示：

最後一個爲Bi-RNN的解碼時長，遠遠大於TDNN的解碼時間[2]。

LSTM（Long Short Term Memory）：

LSTM解決了RNN訓練中梯度消失和梯度爆炸的問題。其結構如下所示[1]：

其數學表達如下所示：

input gate:

forget gate:

cell activation vector:

output gate:

hidden layer:

展開描述爲:

同樣的Bi-LSTM組成也可以組成對應的網絡結構，下圖爲5層的Bi-LSTM網絡[3]

GRU (Gated Recurrent Units)：

GRU由論文[4]提出取消了LSTM中的cell，結構上更加簡單，在性能上，訓練時間更短，epoch更小的情況下可以收斂。

百度的Deep speech2[5]使用的就是GRU，如下圖所示：

LSTM 和GRU對比結構如下[6]：

其數學表達如下所示：

update gate:

Reset gate:

Candidate activation:

Hidden state h：

展開描述爲下圖所示：

參考論文：

1.SPEECH RECOGNITION WITH DEEP RECURRENT NEURAL NETWORKS

2.Bidirectional recurrent neural networks

3.Fast and Accurate Recurrent Neural Network Acoustic Models for Speech Recognition

4.On the properties of neural machinetranslation: Encoder-decoder approaches

5.Deep Speech 2- End-to-End Speech Recognition in English and Mandarin

6.Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

LSTM實現語音識別

序言：語音識別作爲人工智能領域重要研究方向，近幾年發展迅猛，其中RNN的貢獻尤爲突出。RNN設計的目的就是讓神經網絡可以處理序列化的數據。本文筆者將陪同小夥伴們一塊兒踏上語音識別之夢幻旅途，相信此處風景獨好。內容目錄環境準備

2020-07-03 22:01:29

有哪個軟件可以進行文件識別？學生上班族都在用它

現如今，對於各種不同功能的手機APP，我們的需求也變得越來越大。我們會在手機下載具備美圖功能、聯繫功能或娛樂功能等的軟件，此外，有利於學習、工作的軟件我們也一樣不落下。例如，學生、上班族都在使用的“錄音轉文字助手”APP，這個軟件能夠幫助

2020-07-08 03:40:47

python實現百度語音之語音識別

這篇文字是基於前輩分享的基礎上寫出來的。前輩在這裏： http://blog.sina.com.cn/s/blog_7cedb56d0102vb5p.html http://blog.csdn.net/wolfblood_

2020-07-06 19:28:32

kaldi源碼分析(四)-單音素訓練

文章目錄steps/train_mono.sh steps/train_mono.sh 單音素訓練是使用kaldi進行所有傳統聲學模型訓練的起始部分，尤爲重要。在進行聲學模型訓練時，首先使用單高斯模型進行模型訓練。聲學模型的對齊

2020-07-06 10:47:07

kaldi源碼分析(一)--kaldi腳本

文章目錄數據準備發音詞典 L.fst提取特徵聲學模型訓練語言模型訓練解碼數據準備發音詞典 L.fst 將之前的詞典轉換爲L.fst 以及 topo文件 utils/prepare_lang.sh --position-dep

2020-07-06 10:47:07

kaldi源碼分析(三)-特徵處理

文章目錄特徵相關腳本分析steps/compute_cmvn_stats.sh提取特徵腳本（steps/make_mfcc.sh steps/make_mfcc_pitch.sh steps/make_

2020-07-06 10:47:00

基於srilm的語言模型訓練簡介（一）

文章目錄一、語言模型訓練二、語言模型打分三、語言模型剪枝四、語言模型合併五、語言模型使用詞典限制一、語言模型訓練 ##功能 #讀取分詞後的text文件或者count文件，然後用來輸出最後彙總的count文件或者語言模型 ##參數

2020-07-06 10:47:00

kaldi源碼分析(二)-數據準備

文章目錄kaldi數據準備發音詞典數據準備聲學模型數據準備語言模型數據準備 kaldi數據準備在本次記錄中主要記錄的是發音詞典以及聲學模型的數據準備，語言模型僅僅簡單介紹。發音詞典數據準備發音詞典數據準備的階段主要目的是生成

2020-07-06 10:47:00

Python調用百度語音REST API

（百度的rest接口的部分網址發生了一定的變化，相關代碼已更新）百度通過 REST API 的方式給開發者提供一個通用的 HTTP 接口，基於該接口，開發者可以輕鬆的獲得語音合成與語音識別能力。SDK中只提供了PHP、C和JA

狼血wolfblood

2020-07-06 04:43:41

大量的新聞語料庫

http://media.cnr.cn/option,com_content,task,category,sectionid,11,id,555,Itemid,349.html 我找了好久新聞類的語料總算在這裏找到了不過還要轉化一下頻

2020-07-04 22:47:19

京東智聯雲智能RPA商城應用案例：獨立解決90%以上的顧客諮詢問題，節省了上億成本|百萬人學AI評選

2020 無疑是特殊的一年，而 AI 在開年的這場”戰疫“中表現出了驚人的力量。站在“新十年”的起點上，CSDN【百萬人學AI】評選活動正式啓動。本屆評選活動在前兩屆的基礎上再度升級，設立了「AI優秀案例獎Top 30」、「AI新銳公

2020-07-03 21:41:29

精讀 An LSTM-Based Dynamic Customer Model for Fashion Recommendation 總結

精讀 An LSTM-Based Dynamic Customer Model for Fashion Recommendation 總結研究成果1. 前言2. 研究內容2.1 數據描述2.2 Fashion DNA的生成（商品表

2020-07-08 10:45:04

吳恩達深度學習——循環神經網絡

文章目錄引言序列模型能解決什麼問題符號定義循環神經網絡穿越時光反向傳播不同類型的循環神經網絡語言模型和序列生成對新序列採樣RNN的梯度消失問題GRU單元長短記憶網絡(LSTM)雙向RNN神經網絡深層RNN參考引言本文是吳恩達深

愤怒的可乐

2020-07-07 13:46:21

神經網絡基礎--循環神經網絡RNN

在處理序列問題（如語言識別等）上，使用循環神經網絡（Recurrent Neural Networks，RNN）是很自然的方式；所謂循環神經網絡，其實就是把上一時刻的信息作爲當前時刻輸入的一部分，從而實現信息的傳遞；本文將先介紹基礎版RN

2020-07-06 21:23:20

lstm調參之旅一：dim_proj，validFreq，saveFreq，maxlen，valid_batch_size，modal_costs，recyl_maxlen

dim_proj：表示feature的種類個數 validFreq：表示多少次更新之後計算validation error saveFreq：每次更新saveFreq的時候保存參數，表示保存參數的次數 ma

2020-07-03 22:51:42

24小時熱門文章

最新文章

最新評論文章