DFSMN——Alibaba2018

論文:DEEP-FSMN FOR LARGE VOCABULARY CONTINUOUS SPEECH RECOGNITION Alibaba 2018
DFSMN 特點:跳層連接,更深的層數。和LFR結合。模型尺寸更小,低延遲。
實驗結果表明DFSMN是用於聲學模型的BLSTM強有力替代方案。

skip connections
BLSTM網絡
lower frame rate(LFR) 低幀率
CD-phones
unfold-RNN 展開RNN
TDNN
FSMN feedforward sequential memory networks
cFSMN 緊湊FSMN
skip connections使信息流跨越不同層,從而緩解深度網絡中的梯度消失問題。
DFSMN與LFR結合加速解碼並優化DFSMN結構以滿足延遲要求。
LCBLSTM
FSMN靈感來自於數字信號處理中濾波器的涉及知識,任何IIR可以用高階FIR來近似。
FSMN通過增加一些存儲塊來擴展標準前饋全連接神經網絡,這些存儲塊採用FIR濾波器中的抽頭延遲線結構,進入隱藏層。
sFSMN 標量FSMN vFSMN 矢量FSMN
在cFSMN中,是將標準隱層用低秩權重矩陣分解技術分解爲兩層。
skip connections ,residual 或highway networks
DFSMN結構
在這裏插入圖片描述
在這裏插入圖片描述
語音信號由於在加窗時有重疊,相鄰幀之間有較強冗餘信息。類似於wavenet中的擴展卷積,我們在內存塊中加入步長因子來移除冗餘。
實驗設置:
1.英文識別任務
訓練集:Fisher 2000h
測試集:Hub5e00
輸入8kHz,25ms漢明窗10ms幀移。 72維filter-bank(FBK)特徵,包括分佈在梅爾尺度上的24個對數能量係數,及其一階導數和二階導數。 3-gram語言模型,訓練自轉錄文本。
混合DNN-HMM基線系統,使用從MLE(最大似然估計訓練準則)訓練得到的GMM-HMM基線系統獲得綁定狀態對齊來訓練傳統的CD-DNN-HMM模型。
DNN包含6個隱層,每層2048個神經元,使用ReLU函數激活。
輸入是拼接的filter-bank特徵,上下文窗口大小爲15(7+1+7)。
混合BLSTM-HMM基線系統,有3個BLSTM層,每層單向1024個神經元,後面接一個512個神經元的低秩線性循環投影層。
cFSMN基線系統,372-4[2048-512(20,20)]-3*2048-512-9004,輸入是72維filter-bank特徵上下文窗口爲3,cFSMN由4個cFSMN層組成,後面跟3個ReLU DNN隱藏層和一個線性投影層。
使用8個GPU的BMUF優化和幀級交叉熵準則,以分佈式方式訓練所有模型。初始學習率爲0.00001,momentum保持0.9.DNN和BLSTM中,mini-batch 小批量訓練設置爲4096.BLSTM模型使用16序列的mini-batch的標準全序列BPTT訓練。性能如下圖:
在這裏插入圖片描述
表1,第三個模型BLSTM(6)中6個隱層(每層每個方向512個神經元),用4-gram語言模型解碼得到10.3%WER。所提出的DFSMN,通過純粹只是用CE準則而不用任何特徵空間或說話人空間自適應技術達到9.4%WER,與基線BLSTM系統相比,所提出的DFSMN可以通過更小的模型尺寸實現1.5%的WER下降。
其他結構DFSMN,3 72-Nf[2048-512(N1;N2; s1; s2)]-Nd 2048-512-9004,Nf是cFSMN層數,Nd是DNN ReLU層數。
N1 = 20;N2 = 20;Nd = 3。
在這裏插入圖片描述
2.中文識別任務
訓練集:5000h 和 20000h
測試集:30h 對CER(字符錯誤率)進行性能評估。
採樣率:16kHz,聲學特徵是80維的對數梅爾濾波器組能量係數,25ms窗,幀移10ms。
1)5000h訓練集
實驗中,採用CD-state和CD-phone作爲建模單元評估DFSMN性能。爲了比較,訓練了LCBLSTM(latency controlled BLSTM)作爲基線系統。對於CD-phone模型,使用幀率爲30ms的LFR(低幀率)技術。
對於CD-state的傳統混合模型,用CE準則訓練CD-DNN-HMM,用於重新對齊並生成新的10ms幀級目標。HMM由14359個CD-states構成。基線CD-LCBLSTM-HMM混合系統,採用Nc=80 and Nr=40來訓練LCBLSTM。基線LCBLSTM有3個BLSTM層(每層單個方向500個存儲神經元),2個RELU DNN層(每層2048個隱藏節點)和一個softmax輸出層。cFSMN基線模型結構爲3 80-6[2048-512(20; 20)]-2
2048-512-14359.輸入層是80爲filter-bank特徵,LCBLSTM和cFSMN的上下文窗口分別是1和3。
對於採用CD-phones的LFR訓練混合模型,首先將14359個CD-states映射到9841個CD-phones,然後通過平均3個one-hot目標標籤(LFR爲30ms)進行子採樣,產生軟LFR目標。對於基線LFR訓練的LCBLSTM系統(LFR-LCBLSTM),採用和基線系統相似的模型結構,Nc=27and Nr=13.
對於LFR訓練的cFSMN模型(表示爲LFR-cFSMN),訓練了cFSMN(6)、cFSMN(8)、cFSMN(10)。輸入是80維filter-bank特徵,LCBLSTM和cFSMN的上下文窗口分別爲17和11.對於LFR訓練的DFSMN模型(LFR-DFSMN),模型結構爲11 *80-Nf * [2048-512(N1;N2; s1; s2)]-Nd *
2048-512-9841.實驗中,設置N1 = 10;N2 =5; s1 = 2; s2 = 2;Nd = 2,然後評估LFRDFSMN(8)和LFRDFSMN(10)的性能。
所有模型使用8個GPU的BMUF優化和幀級交叉熵準則,採用分佈式訓練。
在這裏插入圖片描述
CD-phones性能優於CD-states。
cFSMN和DFSMN都可以從深層網絡結構中獲益,並且相同模型拓撲結構下,DFSMN性能優於cFSMN。
訓練深層LCBLSTM以實現較好性能,比如Highway-LSTM。
表4爲LFR-LCBLSTM和LFR-DFSMN模型訓練時間和解碼實時因子RTF,可以看出DFSMN比LCBLSTM可以實現3倍加速。

在這裏插入圖片描述
2)20000h訓練集
LFR-LCBLSTM拓撲結構同5000h的配置。
LFR-DFSMN(10)拓撲結構:11 80-10[2048-512(5;N2; 2; 1)]-2_2048-512-9841,固定了FSMN層數(Nf),DNN層數(Nd),回溯濾波器階數(N1)並嘗試研究不同的前瞻濾波器階數(N2)對性能的影響。使用16個GPU上的BMUF優化和幀級交叉熵準則,以分佈式方式訓練所有模型。
在這裏插入圖片描述

對於基線LFR-LCBLSTM,Nc = 27 and Nr = 13,時間實例的延遲幀數是40.對於LFR-DFSMN,可以通過設置先行濾波器階數來控制延遲幀的數量。表5中的實驗結果表明,在DFSMN中,當將延遲幀數從20較少到5時,性能僅損失5%,因此延遲大約爲150ms(30ms*5),可以用於實時應用。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章