Self-training for end-to-end speech recognition

ABSTRACT

我們在端到端語音識別的背景下重新進行自我訓練。 我們證明利用僞標籤進行訓練可以通過利用未標記的數據來大大提高基線模型的準確性。 我們方法的關鍵是用於生成僞標籤的強大基線聲學和語言模型,健壯且穩定的波束搜索解碼器以及用於增加僞標籤多樣性的新穎合奏方法。 在LibriSpeech語料庫上進行的實驗表明,使用單一模型進行自我訓練,與在100小時標記數據上訓練的基線相比,在乾淨數據上可以產生21%的相對WER改善。 我們還評估了標籤過濾方法,以提高僞標籤質量。 通過將六個模型集成在一起並結合標籤過濾,自我訓練可產生26%的相對改進,並彌合基線與使用所有標籤訓練的oracle模型之間的55.6%的差距。

1. INTRODUCTION

建立自動語音識別(ASR)系統需要大量轉錄的訓練數據。 與混合模型相比,端到端模型的性能似乎會更加嚴重地降低可用訓練數據的數量[1]。 錄製大量音頻既昂貴又費時,因此需要能夠從大量未配對的音頻和文本數據中學習更多的算法。 已經提出了許多半監督訓練方法來利用這種未配對的數據。 一種這樣的方法,自我訓練,使用從在小得多的標記數據集上訓練的模型生成的噪聲標記。
我們在注意序列到序列模型的情況下重新討論自訓練[2,3]。 我們展示了LibriSpeech上的自我培訓的相對收益,LibriSpeech是公開可用的閱讀語音語料庫,無需使用外部培訓的語言模型。 使用在大型文本語料庫上訓練過的LM,自我訓練可使WER相對於純淨測試集提高26%,相對於嘈雜測試集提高21%。
我們的自訓練算法的三個關鍵組成部分是:(1)在小的配對數據集上訓練的強大基線聲學模型;(2)用於序列對序列模型的強大而高效的波束搜索解碼器,可有效利用 外部訓練的神經語言模型和(3)一種新穎的整體自訓練方法,可提高標籤的多樣性。 我們的基準監督模型僅接受了100個小時的乾淨數據訓練,在乾淨測試集上的WER爲8.06%,這是端到端設置中文獻中報道得最好的結果。 結合自我訓練,我們的模型在乾淨的測試集上實現了5.93%的WER,僅比460小時乾淨的語音中對所有可用標籤進行了訓練的oracle實驗僅差1.7%
我們還評估了兩種針對僞標籤過濾的方法[4],這些方法是針對序列到序列模型經常遇到的錯誤而量身定製的,並展示了它們對僞標籤和模型質量的影響。 最後,我們對自訓練算法的重要組成部分的重要性進行了全面的實證評估。 特別是,我們研究使用的語言模型,過濾功能中的機制以及集合中的模型數量。 在實踐中,可用於語言模型訓練的文本可能與聲學成績單的分佈不匹配。 我們通過觀察WER作爲用於生成僞標籤的語言模型的困惑程度的函數,來洞悉這種潛在的不匹配。

3. SEMI-SUPERVISED SELF-TRAINING

在半監督的情況下,我們有一個未配對的數據集,除了配對的數據集D外,它還由未標記的話語X和文本數據集Y組成。 假設|x|>> n及| Y | ≫ n。
爲了進行自我訓練,我們首先通過最大化方程式8中的目標,在配對數據集D上引導聲學模型PAM。我們還在Y上訓練語言模型PLM。然後,我們使用聲學模型和語言模型來生成一個 通過求解等式6,爲每個未標記的示例X∈X僞標記。這爲我們提供了一個僞配對數據集D¯= {(Xi,Y¯i)| Xi∈X}。 然後,我們以目標D和D的均等加權級聯訓練新的聲學模型

3.1. Filtering

僞標記的數據集D′包含嘈雜的轉錄。 在D的大小(越大越好)和僞標籤中的噪聲之間取得適當的平衡可以使自訓練更有效。 我們設計了一種特定於序列到序列模型的簡單的基於啓發式的過濾功能。 過濾功能可在保留大部分僞標記的同時,以較高的查全率刪除最嘈雜的轉錄。
衆所周知,序列到序列模型在推理上會以兩種方式災難性地失敗:(1)注意會循環,導致長輸出;(2)模型可以太早預測EOS令牌,從而導致輸出過短[10]。
通過刪除包含重複超過c次的n-gram的示例,我們對第一個失敗情況進行了過濾。 這裏的n和c是我們根據標記的開發集調整的超參數。 如第2.1節所述,我們試圖通過僅保持EOS概率高於指定閾值的假設來處理第二種失敗情況。 但是,有時波束搜索會終止而沒有找到以EOS結尾的任何假設。 我們過濾所有這些示例。
此外,對於每個僞標籤,我們基於從聲學模型分配給標籤的條件似然來計算置信度得分。 對於某些僞標記的話語(Xi,Y¯i)∈D¯,我們計算該樣本的長度歸一化對數似然爲
在這裏插入圖片描述
|Y¯i | 是句子中的token數量。 可以將上述過濾方法進行組合和調整

3.2. Ensembles

我們提出並評估了兩種方法來集成自啓動模型。 我們首先訓練通過使用不同種子生成的具有不同初始權重的M模型進行隨機初始化
在第一種方法(樣本集合)中,我們分別爲每個模型生成一個僞標記的數據集Dm。 然後,我們將所有M組僞標籤與權重均勻地結合在一起,並在訓練過程中優化以下目標
在這裏插入圖片描述
在實現中,我們將一個epoch視爲配對數據集D和未配對音頻X的完整傳遞。對於每個X∈X,我們從M個模型之一作爲目標統一採樣僞標籤。
第二種方法是解碼集合,在推理過程中根據修改後的目標,使用所有M個模型來生成單個僞標記的數據集
在這裏插入圖片描述
在波束搜索期間,我們在每個步驟中平均所有M個聲學模型的得分。 我們獲得單個僞標記的數據集D′,並按照等式9中的目標訓練模型。

4. EXPERIMENTS

data

所有實驗都是在可公開獲得的LibriSpeech有聲讀物語料庫上進行的[11]。我們使用“ train-clean100”集作爲配對的數據集,該數據集包含大約100個小時的乾淨語音。未標記的音頻數據集由“ trainclean-360”中的話語組成的360小時清晰語音組成。我們報告標準開發人員的結果,並測試乾淨/其他(嘈雜)設置。
與LibriSpeech一起使用的標準語言模型培訓文本是從14,476張公共領域的書中得出的。選擇書籍時應確保與開發集和測試集沒有重疊[11]。另一方面,訓練數據集的轉錄幾乎完全包含在LM訓練文本中,這可能導致對自我訓練的評估不切實際。爲了使學習問題更切合實際,我們從語言模型訓練數據中刪除了用於生成聲學訓練數據的所有書籍。這導致從LM訓練語料庫中刪除了997本書。
我們採取一些簡單的步驟來預處理和規範化用於LM訓練的結果文本語料庫。首先,我們使用在NLTK [13]中實現的“ punkt”標記器[12]檢測句子邊界。我們通過將所有內容都轉換爲小寫並刪除標點符號(收縮中的撇號除外)來規範化文本(我們將連字符替換爲空格)。與原始的LM語料庫[11]不同,我們沒有采取任何步驟以規範的語言形式替換非標準詞。但是,我們發現,在dev clean和其他轉錄版本上測得,在這個新語料庫上訓練的LM與在標準文本語料庫上訓練的LM相比具有類似的困惑。

4.2. Experimental Setting

我們的序列到序列模型由三個一組的九個TDS塊組成。在每個組之前,我們應用步幅爲2的標準1D卷積,以降低編碼器的幀速率。 TDS組分別包含10、14和16個通道,所有通道的內核寬度均爲21。所有其他架構細節與[8]相同。我們僅使用“ train-clean-100”作爲訓練數據,即可預測使用SentencePiece工具包[14]生成的5,000個子詞目標。
在優化過程中,我們使用軟窗口(σ= 4)預訓練三個時期[8]。除了20%的輟學率之外,我們還使用1%的統一目標抽樣,10%的標籤平滑度[15]和1%的詞條抽樣[16]來對模型進行正則化,除強制教師外。在訓練“ train-clean-100”時,我們使用批處理大小爲16的單個GPU。我們使用無動量的SGD進行200個時期,學習速率爲5e-2,每40個時期退火兩次。 。對於在較大的僞標記數據集上進行的所有實驗訓練,我們使用8個GPU,每個GPU的批處理大小爲16,並以每80個時代2的係數對學習速率進行退火;其架構和參數與“ trainclean-100”基準中的相同。所有實驗均在wav2letter ++框架中進行[17]。
在使用聲學和語言模型的任何新組合生成僞標籤之前,我們在開發集上優化波束搜索超參數,包括語言模型權重和EOS閾值參數(公式7)。我們使用與[19]相同的模型架構和訓練方法,在第4.1節中描述的文本數據集上訓練了詞卷積卷積LM(ConvLM)[18]。在以下實驗中,除非另有說明,否則我們將啓發式過濾應用於c = 2和n = 4(第3.1節)。
當在包含配對和僞標記數據的數據集上訓練模型時,我們從隨機初始化開始,然後對組合的數據集進行訓練。我們觀察到,與從以配對“ train-clean-100”話語訓練的模型開始並根據僞標記數據進行微調相比,這會產生更好的結果。雖然這兩種技術都能產生改進,但從隨機初始化開始始終會更好

4.3. Results

4.3.1 Supervised Baseline

半監督ASR的常見設置是使用LibriSpeech的“ trainclean-100”子集作爲標記的數據集[20,21]。 表1顯示了我們在“ train-clean-100”的監督基線下得到的WER,以及來自文獻的其他一些結果。 林等。 [21]使用基於BiLSTM編碼器和基於位置的注意的序列到序列模型。 他們在“ train-clean-100”上訓練他們的模型,以此作爲反向翻譯樣式方法的基準。 劉等。 [20]用CTC損失增強了序列到序列模型。 與這兩者相比,我們在乾淨開發和測試集上的基準WER相對降低了30%以上
在這裏插入圖片描述
另一方面,L¨uscher等。 [1]使用[22]中提出的序列到序列模型,據我們所知,當限於“ train-clean-100”時,可以產生最佳的先驗結果。 與此相比,我們的TDS基準模型在開發集上具有更好的WER,並且具有相似的測試WER。 我們認爲,對於半監督實驗,我們的監督基準是一個具有挑戰性但實用的起點。 此基準使我們能夠更有意義地展示添加其他未標記的音頻或文本數據所帶來的改進。

4.3.2 Evaluating Beam Search

爲了研究穩定波束搜索的重要性,我們在另外兩個條件下評估了自我訓練。 首先,我們與僅從聲學模型的貪婪輸出生成的僞標籤進行比較。 我們在“ train-clean-360”上使用監督的基線模型執行貪婪解碼,以生成僞標籤。 其次,我們將比較使用語言模型但沒有EOS閾值和第2.1節中描述的注意力高度限制的簡單波束搜索生成的僞標籤。
對於每種設置,我們在表2中訓練三個模型並報告平均WER,而沒有外部LM。我們還將僞標籤與“ train-clean-360”的真實轉錄進行比較,並計算標籤WER作爲標籤質量。我們可以在表2中看到,在簡單的波束搜索中使用LM可以提高僞標籤的質量,從而提高訓練模型的質量。穩定的波束搜索進一步提高了僞標籤質量,以及使用這些標籤訓練的模型的結果WER。
在這裏插入圖片描述

4.3.3 Comparing Ensembles

圖1比較了乾淨開發集和其他開發集上的兩種集成方法。 樣本集合在兩個集合上的WER增益都比解碼集合大。 一種可能的解釋是,由於樣本集合在訓練時對同一樣本使用了不同的轉錄本。 這可以防止模型對嘈雜的僞標籤過分自信。 通常,合奏中的模型應該傾向於在不正確的抄寫上更多地達成一致,並在正確的抄寫上更多地達成一致。
在這裏插入圖片描述

4.3.4. Summary

表3總結了在強監督基線,穩定光束搜索和樣本集合的情況下我們的最佳結果。 我們還使用LM解碼每個模型,以展示自訓練方法的全部潛力。
從表3中我們可以看到,與監督基線相比,即使是基本的僞標記方法,在使用LM解碼後,乾淨測試集的相對改進也達到21.2%,其他測試集的相對改進達到20.7%。 通過使用六個模型的樣本集成方法,我們看到乾淨測試集的進一步相對改進爲6.6%。
爲了瞭解自我訓練的侷限性,我們還評估了一個Oracle模型,該模型可以訪問“ train-clean-100”和“ train-clean-360”中的真實標籤。 表3顯示,最佳僞標籤模型彌合了僅在“ train-clean100”上訓練的監督基線與在乾淨測試集上測量的oracle模型之間的55.6%的差距。
在這裏插入圖片描述

4.4. Analyses

4.4.1 Importance of Filtering

表4顯示了通過基線模型在“ train-clean-360”上生成的僞標籤具有各種過濾功能的結果。所有WER結果均爲三個模型的平均值,均使用帶有ConvLM的相同波束搜索解碼過程。我們評估了“無EOS + n-gram”濾波器和聲學模型得分閾值,不包括最差的第10個百分點的樣本。在乾淨的環境中,我們觀察到“無EOS + n-gram”過濾器可改善乾淨的和其他顯影設備的WER。僞標籤的質量使得根據聲學模型得分刪除最差的十分之一樣本可以提高性能,但是按照此標準刪除數據的倒數第二十分之多會從訓練集中刪除太多數據。這些過濾技術的最佳組合首先應用“ no EOS + n-gram”過濾器,然後根據其得分從結果集中刪除樣本的最低第10個百分點。這樣,“乾淨”開發套件和“其他”開發套件的相對WER分別降低了5%和8%。
在這裏插入圖片描述

4.4.2. Importance of the LM

我們通過使用具有不同困惑度的LM生成的僞標籤訓練多個模型來檢驗LM的影響,這些僞標籤對開發人員集具有重要意義。 我們通過訓練模型的可變數量的步驟來控制LM的困惑。 對於每個僞標籤集,我們訓練三個模型並報告平均WER,而無需使用LM進行解碼。
在圖2中,我們顯示了通過對具有不同LM困惑度的僞標籤進行自我訓練而減少了WER。 我們可以看到一個明顯的趨勢,即當LM困惑度降低時,開發集上的WER也會降低。 換句話說,更好的LM可以爲自訓練提供更好的模型性能。 在表2中,我們表明不使用任何語言模型來生成僞標籤(AM Greedy),在dev clean上的WER爲12.27,在其他dev上的WER爲33.42。 與圖2相比,很明顯,即使使用更高的困惑度的LM也可以提高自我訓練的效率。 我們看到LM困惑度的上限爲180,其中僞標籤的質量開始比沒有外部LM時可獲得的僞劣,從而導致自訓練的模型性能變差。
在這裏插入圖片描述

5. RELATED WORK

自我訓練已應用於自然語言處理中的任務,包括單詞義消歧[2],名詞識別[23]和解析[3],以及計算機視覺中的任務(例如對象檢測[24、25]和圖像)分類[26]。在自動語音識別中,自訓練式方法已在基於對齊的混合語音系統中取得了一些成功。先前的工作主要集中在不同的數據過濾方法上,以提高僞標籤的質量。基於置信度的過濾[27、28、29]和基於 agreement based
selection[30],它們也利用了來自多個系統的輸出,並且數據選擇過程可以在從幀到發聲[31、32]的不同級別上進行。在混合數據系統中使用僞標籤還可以改善大規模數據集的WER [33],而在另一種情況下,在沒有發佈未配對音頻的情況下進行培訓時,無需外部LM的學生-教師方法也可以改善[34]。 。然而,在這兩種情況下,非公開數據的使用都使得方法的再現和直接比較變得困難。因此,這項工作的一個目標是提供一種可重現的配方,以改善帶有僞標籤的ASR性能,同時提供一種標準的,可公開獲得的基準,自動語音識別中的其他半監督方法可以與之相比。最近提出的端到端語音識別的半監督方法已經應用了類似於反向翻譯的技術[35]。這些使用不成對的文本來生成合成數據集,但是直接針對隱藏狀態表示而不是聲學特徵[21]。或者,可以通過將未配對的音頻和文本嵌入到共享表示中來使用它們[36]。在具有端到端模型的半監督ASR中,先前的工作往往是基於弱或微調的監督基線模型構建的,這是半監督學習普遍存在的普遍問題[37]。相比之下,我們將自我訓練的模型與經過良好調整的基準模型進行比較,該模型優於在相同數據集上訓練的先前結果

6. DISCUSSION

我們已經證明,通過利用大量未標記的數據集,自我訓練可以在強大的基線模型上爲端到端系統帶來實質性的改進。自我訓練已經在其他應用領域中得到了很好的研究,但是尚未在深度神經網絡的端到端語音識別中進行過仔細的研究。我們假設這些模型的魯棒性與在配對數據集上訓練的強大基線模型相結合,可以使自訓練更加有效。此外,我們表明,針對序列序列模型遇到的錯誤類型量身定製的過濾機制以及基線模型的集成可以進一步提高自訓練的準確性。
這項研究的侷限性在於我們進行實驗的數據集LibriSpeech完全由朗讀語音組成。這不是一個完全實用的設置,因爲用於訓練語言模型的書籍的分佈與聲學訓練數據中的轉錄的分佈非常匹配。我們會非常小心地刪除兩個數據集之間的確切重疊,以使問題設置更加實際。但是,未來的工作應該檢查噪聲更大,匹配程度較差的未標記語音和文本。
改進半監督學習方法的主軸之一是數據規模。我們期望通過不斷擴大未標記的音頻和文本語料庫的規模,自我培訓可以在LibriSpeech和其他地方帶來更大的進步。除了演示LibriSpeech上自我訓練的有效性外,我們還建立了一個強大的基線模型和可重現的半監督學習環境,可以評估新方法和現有方法。我們希望這有助於加速語音識別這一研究領域的發展

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章