神經網絡-LFR model

CLDNN[1]

不同的網絡結構有不同的優勢
- CNN擅長減少頻率偏移
- LSTM擅長對時序信號進行建模
- DNN可以對特徵做更高階的抽象,更容易進行分類
這裏寫圖片描述
CLDNN依次將CNN/LSTM/DNN進行串聯組合成一個新的網絡,相當於依次進行頻域變化/時域關聯/特徵抽象,相比於單一的LSTM網絡,可以獲得性能的提升。

delay constraint[2]

對ctc模型來講,在數據幀和輸出label之間存在延時,即label的尖峯可能在實際語音延遲一段時間後出現,類似於下圖:
這裏寫圖片描述
爲了改善這種延時的問題,可以人爲的限定延時的時間範圍。具體做法是在ctc訓練過程中,以對齊的label作爲標準,在前後向變量計算的過程中只選擇延時在一定範圍內的路徑。
人爲縮小這種delay會引起識別率的下降,但是經過smbr訓練以後,不同delay時間對應識別率保持一致。

LFR[3]

由於CTC模型是序列到序列的訓練關係,所以可以採用lower frame rate的方式進行訓練,比如每30ms計算一次聲學得分(即使用三幀數據中的一幀進行解碼)。
除了ctc這種訓練方式,傳統的lstm模型也進行了LFR(lower frame rate)的測試。使用時需要將cd-state修改爲cd-phone,即放大輸出單元的粒度,爲跳幀提供空間。
相比於CTC-30ms,CLDNN LFR-40ms(即每四幀數據使用一幀)的優勢:
- 準確率提升
- shorter output delay
- 沒有ctc對訓練數據量敏感(訓練語料減少帶來的性能降低沒有ctc明顯)

參考文獻

[1]. Convolutional, long short-term memory, fully connected deep neural networks
[2]. Acoustic modelling with CD-CTC-sMBR LSTM RNNs
[3]. Lower Frame Rate Neural Network Acoustic Models

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章