Attention在語音識別中的應用(2)

    上一篇文章介紹了Attention機制在語音識別和MNT中的應用,由於上篇文章篇幅較長,所以分出本章對Attention進行繼續介紹。

接下里會介紹2篇文章。

第一篇爲William Chan 等人在2015年8月份提出的比較經典的Listen, Attend and Spell[1],

其中Encoder RNN 別名爲listener,Decoder RNN別名爲speller

listener具體架構爲一個金字塔RNN結構,用來把低維的語音信號轉成高維的特徵,其中金字塔RNN加速了訓練收斂的速度。

speller爲RNN結構,藉助於Attention機制,把高維的特徵轉成對應的文本句子。其架構如下所示:



其輸入x爲40-dimensional log-mel filter bank features,輸出y爲英文字符和標點,空格等字符。

其中Attention計算方式和上一篇中的計算方式一樣,公式中的Ci即代表上一篇中的glimpse Gi


Decoder略有區別,爲MLP加softmax輸出,如下所示:


而s的計算方式和上一篇介紹相同,通過RNN得到,si依賴si-1,yi-1和ci-1,都是依賴上一個step i-1的權重


模型識別率如下所示:



下圖中對句子的長短的錯誤率進行了展示,


可以看到句子太短(字數在5個字以內),或者句子太長(超過16個字),識別率都不是很好

這也印證了,上文中提到的Attention的自身侷限性。


第二篇也是William Chan 等人在2016年9月份interspeech-2016的文章[2],

該文章直接用Attention來做中文拼音的預測,不需要解碼器,不需要語言模型的情況下,實時預測,並取得了不錯的成績,

最重要的是該篇文章的思路給接下來的研究指明瞭方向。

架構如下圖所示:


其中w爲帶窗口的Encoder的隱藏層h序列,其Encoder也爲金字塔RNN,如下圖所示


其架構與上面的一樣,Attention數學表達如下:


可以看出與上面的計算方式相同,輸出狀態s的數學表達如下:


也於上文一致,其輸出y表達如下所示:


其WSJ數據集識別率如下表所示:


比CTC下降了5個點,在中文字符+拼音識別率如下:


CER爲59.3%,錯誤率頗高,

但是在WSJ數據集合上識別率較CTC模型相差不多。

該篇文章入選InterSpeech2016理由應該是用Attention模型給無解碼器和語言模型做在線實時語音識別做了一個方向的指引

以上2章對Attention在語音識別的應用做了總結和梳理,接下來會對Attention的更多應用進行關注和整理。



[1]Listen, Attend and Spell 

[2]On Online Attention-based Speech Recognition andJoint Mandarin Character-Pinyin Training 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章