語音識別CTC模型的output delay問題及其解決辦法

本篇博客主要是參考谷歌2015年的一篇文章《ACOUSTIC MODELLING WITH CD-CTC-SMBR LSTM RNNS》。

什麼叫output delay(輸出延遲)
在這裏插入圖片描述
爲什麼會產生輸出延遲呢?論文原話是:

With CTC, there is no time alignment supervision since the network is constantly integrating over all possible alignments. This means that the LSTM can vary the delay between acoustics and outputs, using an arbitrarily large future context if that helps optimizing the total sequence probability。

個人理解:我們訓練的時候是最大化目標函數,因此只要對最大化目標函數有利,延遲可以是任意的。

輸出延遲會影響我們的解碼速度,所以需要對延遲做限制。具體怎麼做呢,論文原話是:

Delay can be limited by restricting the set of search paths used in the forward-backward algorithm to those in which the delay between CTC labels and the “ground truth” alignment does not exceed some threshold。

個人理解:就是以對齊的label作爲標準,在前後向變量計算的過程中只選擇延時在一定範圍內的路徑。

限制延遲時間會對wer產生影響,作者做了下面幾組實驗:
Label posteriors estimated by CD-CTC LSTM RNN models trained with different delay constraints plotted against fixed DNN frame level alignments shown only for labels in the alignment on a held out utterance ‘museums in Chicago’.  refers to the blank label.

但加上區分性訓練sMBR之後,這種影響幾乎可以消除了:
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章