Attention-based End-to-End Models for Small-Footprint Keyword Spotting基於注意的小腳印關鍵字點對點模型

Abstract

在本文中,我們提出了一種基於注意力的端到端神經網絡方法,用於小足跡關鍵詞發現(KWS),旨在簡化構建生產質量的KWS系統的流程。我們的模型包括一個編碼器和一個注意機制。編碼器使用RNN將輸入信號轉換爲高級表示。然後,注意力機制對編碼器特徵進行加權,並生成固定長度的向量。最後,通過線性變換和softmax函數,向量成爲用於關鍵字檢測的得分。我們還評估了不同編碼器架構(包括LSTM,GRU和CRNN)的性能。在現實世界中喚醒數據的實驗表明,我們的方法在很大程度上優於最新的Deep KWS方法,並且CRNN實現了最佳性能。更具體地說,在約84K參數的情況下,我們的基於注意力的模型在每小時1.0次錯誤警報(FA)的情況下實現了1.02%的錯誤拒絕率(FRR)。
索引詞:基於注意力的模型,端到端關鍵字識別,卷積神經網絡,遞歸神經網絡

1. Introduction

關鍵字發現(KWS)或口語檢測(STD)是一項任務,用於檢測音頻流中的預定義關鍵字。具體而言,作爲KWS的典型應用,喚醒單詞檢測已成爲各種設備上必不可少的功能,以使用戶擁有完全的免提體驗。實用的設備上KWS模塊必須以較低的誤報率將誤報率降至最低,以使其易於使用,同時將內存佔用空間,等待時間和計算成本限制得儘可能小。
作爲經典解決方案,基於大詞彙量連續語音識別(LVCSR)的系統[1、2]被廣泛用於KWS任務。儘管可以根據用戶要求靈活地更改關鍵字,但是基於LVCSR的系統需要生成豐富的網格,並且關鍵字搜索需要大量的計算資源。這些系統通常被設計爲搜索音頻內容的大型數據庫。已經提出了幾種最近的嘗試來降低計算成本,例如,使用基於端到端的聲學模型[3,4]。但是這些模型仍然很大,因此不適用於小尺寸,低延遲的應用程序。 KWS的另一種經典技術是關鍵字/填充器隱馬爾可夫模型(HMM)方法[5],直到今天仍然具有很強的競爭力。 HMM分別針對關鍵字和非關鍵字音頻片段進行訓練。在運行時,維特比解碼用於在解碼圖中搜索最佳路徑,根據HMM拓撲的不同,這在計算上可能會非常昂貴。在這些方法中,最初使用高斯混合模型(GMM)對觀察到的聲學特徵進行建模,但是
深度學習的進步,最近已經採用了深度神經網絡(DNN)來代替具有改進性能的GMM [6]。一些研究用訓練有聯繫者時間分類(CTC)標準的RNN模型或基於注意力的模型[8]代替了HMM,但是,這些研究仍在關鍵字/填充符框架下。
作爲Google使用的佔用空間小的方法,Deep KWS [9]最近引起了很多關注。在這種方法中,訓練了一個簡單的DNN以預測子關鍵字目標和填充詞的幀級後驗。當通過後處理方法產生的置信度得分超過閾值時,將檢測到關鍵字。在不涉及HMM的情況下,該方法的性能優於關鍵字/填充HMM方法。此外,這種方法非常適合在佔用空間小且延遲低的設備上運行,因爲DNN的大小可以輕鬆控制並且不涉及圖形搜索。後來,前饋DNN被功能更強大的網絡所取代,例如卷積神經網絡(CNN)[10]和遞歸神經網絡(RNN)[11],並有望得到改進。應該注意的是,儘管Deep KWS的框架非常簡單,但仍然需要訓練有素的聲學模型來獲得幀級對齊。
在本文中,我們旨在進一步簡化構建具有生產質量的KWS的流程。具體來說,我們提出了一種基於注意力的端到端神經模型,用於小足跡關鍵詞發現。通過端到端的說法,我們的意思是:(1)直接輸出關鍵字檢測的簡單模型; (2)不涉及複雜的搜索; (3)無需事先對齊即可訓練模型。我們的工作受到語音識別[12、13、14],機器翻譯[15],文本摘要[16]和說話者驗證[17]中最近使用的注意力模型成功的啓發。在KWS中使用注意力機制是直觀的:人們能夠以“高分辨率”(例如,聽衆的名字)專注於音頻流的某個區域,同時以“低分辨率”感知周圍的音頻,然後調整焦點隨着時間的推移。
我們的端到端KWS模型由編碼器和注意機制組成。編碼器使用RNN將輸入信號轉換爲高級表示。然後,注意機制對編碼器特徵進行加權,並生成固定長度的向量。最後,通過線性變換和softmax函數,向量成爲用於關鍵字檢測的得分。就端到端和小尺寸而言,最接近我們的方法是Kliegl等人提出的方法。 [18],其中使用了卷積遞歸神經網絡(CRNN)體系結構。但是,由其較長的解碼窗口(T = 1.5秒)引入的延遲使該系統難以在實際應用中使用。

爲了改進我們的端到端方法,我們進一步探索了編碼器架構,包括LSTM [19],GRU [20]和受[18]啓發的CRNN。 對真實喚醒數據的實驗表明,我們的方法在很大程度上優於Deep KWS。 GRU比LSTM更受青睞,CRNN可以實現最佳性能。 更具體地講,僅使用約84K參數,基於CRNN的注意力模型就可以在每小時1.0錯誤警報(FA)的情況下達到1.02%的錯誤拒絕率(FRR)。

2. Attention-based KWS

2.1。 端到端架構
我們建議在小字體關鍵詞發現中使用基於注意力的端到端模型。 如圖1所示,端到端體系結構由兩個主要子模塊組成:編碼器和注意機制。 編碼器從輸入語音特徵x =(x1,...,xT)得到更高級別的特徵表示h =(h1,...,hT):

具體而言,編碼器通常是可以直接使用語音上下文信息的RNN。 在我們的工作中,我們展示了不同的編碼器結構,包括GRU,LSTM和CRNN。 注意機制從特徵表示中學習歸一化權重αt∈[0,1]:

然後我們將定長向量c作爲的加權平均值編碼器輸出h:

最後,我們通過線性變換生成概率分佈形成和softmax函數:

 

2.2。 注意機制
與人類聽覺注意力類似,我們模型中的注意力機制會選擇語音部分,而這些語音部分更可能包含關鍵字,而忽略了不相關的部分。 我們調查平均注意力和輕微注意力。
平均關注度:Attend模型沒有可訓練的參數,並且將αt設置爲T的平均值:

軟注意力:這種注意力方法是從說話者驗證中借用的[17]。 與其他注意層相比,共享參數非線性注意被證明是有效的[17]。 我們首先學習標量得分等:

然後我們使用這些標量計算歸一化權重αt分數:

2.3。 解碼

如圖1所示,與某些其他方法[9]不同,我們的端到端系統直接輸出置信度評分,而無需進行後處理。 與Deep KWS系統類似,當p(y = 1)超過預設閾值時,將觸發我們的系統。 在圖2中的解碼過程中,輸入是語音特徵的滑動窗口,其具有預設的長度幷包含整個關鍵字。 同時,採用了幀移位。 我們系統中的一小部分參數導致佔用內存少。 對於滑動窗口,我們只需要向網絡中饋入一幀即可進行計算,而其餘幀已經在上一個滑動窗口中進行了計算。 因此,我們的系統具有較低的計算成本。

3. Experiments

3.1。 數據集
我們使用從Mi AI Speaker1收集的真實喚醒數據評估了建議的方法。 喚醒詞是四個音節的漢語普通話(“ xiao-ai-tong-xue”)。 我們收集了〜188.9K個陰性樣本(〜99.8h)和〜1007.4K個陰性樣本(〜1581.8h)作爲訓練集。 保留的驗證集有〜9.9K個正例和〜53.0K個負例。 測試數據集有〜28.8K個陰性示例(〜15.2h)和〜32.8K個陰性示例(〜37h)。 每個音頻幀都是基於40通道Mel-filterbank,25ms開窗和10ms幀偏移來計算的。 然後將濾波器組特徵轉換爲每通道能量歸一化(PCEN)[21]梅爾譜圖。

3.2。基準線
我們重新實現了Deep KWS系統[9]作爲基線,在該系統中,網絡預測了喚醒詞和填充詞中四個中國音節的後驗。此處的“填充詞”是指不包含關鍵字的所有語音。具體來說,我們採用了三種不同的網絡,包括DNN,LSTM和GRU。爲了進行票價比較,將網絡配置設置爲與建議的注意力模型具有相似的參數大小。前饋DNN模型具有3個隱藏層和每層64個隱藏節點,且具有線性線性校正(ReLU)非線性。使用具有15個左框架和5個右框架的輸入窗口。 LSTM和GRU模型建立有2個隱藏層和每層64個隱藏節點。對於GRU KWS模型,最後的GRU層後面是具有ReLU非線性的完全連接層。 LSTM和GRU模型的輸入中沒有堆疊的框架。 Deep KWS的平滑窗口設置爲20幀。在KWS模型訓練之前,我們還使用約3000個小時的語音數據訓練了基於TDNN的聲學模型,以執行幀級對齊。

3.3。實驗裝置
在神經網絡模型中,所有的權重矩陣均通過歸一化初始化[22]進行初始化,並且偏差向量被初始化爲0。我們使用ADAM [23]作爲優化方法,同時降低了學習率。從1e-3收斂到1e-4。應用了梯度範數裁剪爲1以及L2權重衰減1e-5。正訓練樣本的幀長爲T = 1.9秒,可確保包括整個喚醒字。因此,在注意模型中,輸入窗口已設置爲189幀以覆蓋喚醒字的長度。我們從否定示例集中隨機選擇了189個連續幀來訓練注意力模型。在運行時,將滑動窗口設置爲100幀,將幀移位設置爲1。通過繪製FRR(每小時1.0 FA的運行閾值)來觀察性能,同時繪製接收器工作曲線(ROC)。
3.4。注意機制的影響
從表1和圖3,我們可以清楚地看到注意力模型的卓越性能。由於參數大小相似,因此建議的注意力模型在很大程度上優於Deep KWS系統。我們還注意到,在Deep KWS和注意力模型中,GRU均優於LSTM。毫不奇怪,基於軟注意力的模型可以實現最佳性能。以每小時1.0 FA的速度運行時,GRU注意模型將FRR從6.38%(GRU Deep KWS)降低到1.93%,顯着降低了誤剔除率。
3.5。編碼器架構的影響
我們進一步關注了編碼器架構的影響。結果總結在表2,圖4和圖5中。從表2中,我們注意到較大的模型總是比較小的模型表現更好。觀察LSTM模型,1-128 LSTM模型以1.0 FA /小時的FRR爲2.99%獲得了最佳性能。在圖4中,以每小時較低的FA重疊1-128 LSTM模型和3-64 LSTM模型的ROC曲線。這意味着使LSTM網絡更寬或更深可以達到相同的效果。然而,從圖5可以看出,對於GRU而言,相同的結論並不成立。 1-128 GRU模型具有明顯的優勢3-64 GRU模型。換句話說,增加節點數可能比增加層數更有效。最終,1-128 GRU模型以1.0 FA /小時的速度達到1.49%的FRR。
3.6。添加捲積層
受[18]的啓發,我們最終研究了添加con-
GRU注意模型中的卷積層爲卷積
網絡通常被用作提取不變特徵的一種方式。對於
在基於CRNN注意的模型中,我們使用了一層CNN
有一個C(20×5)濾鏡。我們探索了不同數量的輸出1×2
通道和結果總結在表3和圖6中。從表3中,我們可以看到添加捲積層可以進一步提高性能。我們使用84.1K參數在1.0 FA /小時的條件下實現了1.02%的最低FRR。另一個觀察結果是16通道模型比8通道模型更好。通過增加層數,8-2-64模型比8-1-64模型獲得了更大的收益。但是,當使用16通道模型增加層數時,我們無法觀察到額外的好處。
作爲總結,圖7繪製了最佳三個系統的ROC曲線。我們可以看到,GRU和CRNN在很大程度上優於LSTM,並且CRNN實現了最佳性能。

 

 

4。結論
在本文中,我們提出了一種基於注意力的端到端模型,用於小足跡關鍵詞發現。 與Deep KWS系統相比,基於注意力的系統具有出色的性能。 我們的系統由兩個主要子模塊組成:編碼器和注意機制。 我們探索了編碼器架構,包括LSTM,GRU和CRNN。 實驗表明,GRU比LSTM更受青睞,CRNN可獲得最佳性能。 我們還探討了兩種注意力機制:平均注意力和柔和注意力。 我們的結果表明,軟注意力比平均注意力具有更好的性能。 通過約84K的參數,我們的端到端系統最終以1.0 FA /小時的速度達到1.02%的FRR。

 

發佈了60 篇原創文章 · 獲贊 1 · 訪問量 4萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章