Abstract

在本文中，我們提出了一種基於注意力的端到端神經網絡方法，用於小足跡關鍵詞發現（KWS），旨在簡化構建生產質量的KWS系統的流程。我們的模型包括一個編碼器和一個注意機制。編碼器使用RNN將輸入信號轉換爲高級表示。然後，注意力機制對編碼器特徵進行加權，並生成固定長度的向量。最後，通過線性變換和softmax函數，向量成爲用於關鍵字檢測的得分。我們還評估了不同編碼器架構（包括LSTM，GRU和CRNN）的性能。在現實世界中喚醒數據的實驗表明，我們的方法在很大程度上優於最新的Deep KWS方法，並且CRNN實現了最佳性能。更具體地說，在約84K參數的情況下，我們的基於注意力的模型在每小時1.0次錯誤警報（FA）的情況下實現了1.02％的錯誤拒絕率（FRR）。
索引詞：基於注意力的模型，端到端關鍵字識別，卷積神經網絡，遞歸神經網絡

1. Introduction

關鍵字發現（KWS）或口語檢測（STD）是一項任務，用於檢測音頻流中的預定義關鍵字。具體而言，作爲KWS的典型應用，喚醒單詞檢測已成爲各種設備上必不可少的功能，以使用戶擁有完全的免提體驗。實用的設備上KWS模塊必須以較低的誤報率將誤報率降至最低，以使其易於使用，同時將內存佔用空間，等待時間和計算成本限制得儘可能小。
作爲經典解決方案，基於大詞彙量連續語音識別（LVCSR）的系統[1、2]被廣泛用於KWS任務。儘管可以根據用戶要求靈活地更改關鍵字，但是基於LVCSR的系統需要生成豐富的網格，並且關鍵字搜索需要大量的計算資源。這些系統通常被設計爲搜索音頻內容的大型數據庫。已經提出了幾種最近的嘗試來降低計算成本，例如，使用基於端到端的聲學模型[3，4]。但是這些模型仍然很大，因此不適用於小尺寸，低延遲的應用程序。 KWS的另一種經典技術是關鍵字/填充器隱馬爾可夫模型（HMM）方法[5]，直到今天仍然具有很強的競爭力。 HMM分別針對關鍵字和非關鍵字音頻片段進行訓練。在運行時，維特比解碼用於在解碼圖中搜索最佳路徑，根據HMM拓撲的不同，這在計算上可能會非常昂貴。在這些方法中，最初使用高斯混合模型（GMM）對觀察到的聲學特徵進行建模，但是
深度學習的進步，最近已經採用了深度神經網絡（DNN）來代替具有改進性能的GMM [6]。一些研究用訓練有聯繫者時間分類（CTC）標準的RNN模型或基於注意力的模型[8]代替了HMM，但是，這些研究仍在關鍵字/填充符框架下。
作爲Google使用的佔用空間小的方法，Deep KWS [9]最近引起了很多關注。在這種方法中，訓練了一個簡單的DNN以預測子關鍵字目標和填充詞的幀級後驗。當通過後處理方法產生的置信度得分超過閾值時，將檢測到關鍵字。在不涉及HMM的情況下，該方法的性能優於關鍵字/填充HMM方法。此外，這種方法非常適合在佔用空間小且延遲低的設備上運行，因爲DNN的大小可以輕鬆控制並且不涉及圖形搜索。後來，前饋DNN被功能更強大的網絡所取代，例如卷積神經網絡（CNN）[10]和遞歸神經網絡（RNN）[11]，並有望得到改進。應該注意的是，儘管Deep KWS的框架非常簡單，但仍然需要訓練有素的聲學模型來獲得幀級對齊。
在本文中，我們旨在進一步簡化構建具有生產質量的KWS的流程。具體來說，我們提出了一種基於注意力的端到端神經模型，用於小足跡關鍵詞發現。通過端到端的說法，我們的意思是：（1）直接輸出關鍵字檢測的簡單模型；（2）不涉及複雜的搜索；（3）無需事先對齊即可訓練模型。我們的工作受到語音識別[12、13、14]，機器翻譯[15]，文本摘要[16]和說話者驗證[17]中最近使用的注意力模型成功的啓發。在KWS中使用注意力機制是直觀的：人們能夠以“高分辨率”（例如，聽衆的名字）專注於音頻流的某個區域，同時以“低分辨率”感知周圍的音頻，然後調整焦點隨着時間的推移。
我們的端到端KWS模型由編碼器和注意機制組成。編碼器使用RNN將輸入信號轉換爲高級表示。然後，注意機制對編碼器特徵進行加權，並生成固定長度的向量。最後，通過線性變換和softmax函數，向量成爲用於關鍵字檢測的得分。就端到端和小尺寸而言，最接近我們的方法是Kliegl等人提出的方法。 [18]，其中使用了卷積遞歸神經網絡（CRNN）體系結構。但是，由其較長的解碼窗口（T = 1.5秒）引入的延遲使該系統難以在實際應用中使用。

爲了改進我們的端到端方法，我們進一步探索了編碼器架構，包括LSTM [19]，GRU [20]和受[18]啓發的CRNN。對真實喚醒數據的實驗表明，我們的方法在很大程度上優於Deep KWS。 GRU比LSTM更受青睞，CRNN可以實現最佳性能。更具體地講，僅使用約84K參數，基於CRNN的注意力模型就可以在每小時1.0錯誤警報（FA）的情況下達到1.02％的錯誤拒絕率（FRR）。

2. Attention-based KWS

2.1。端到端架構
我們建議在小字體關鍵詞發現中使用基於注意力的端到端模型。如圖1所示，端到端體系結構由兩個主要子模塊組成：編碼器和注意機制。編碼器從輸入語音特徵x =（x1，...，xT）得到更高級別的特徵表示h =（h1，...，hT）：

具體而言，編碼器通常是可以直接使用語音上下文信息的RNN。在我們的工作中，我們展示了不同的編碼器結構，包括GRU，LSTM和CRNN。注意機制從特徵表示中學習歸一化權重αt∈[0，1]：

然後我們將定長向量c作爲的加權平均值編碼器輸出h：

最後，我們通過線性變換生成概率分佈形成和softmax函數：

2.2。注意機制
與人類聽覺注意力類似，我們模型中的注意力機制會選擇語音部分，而這些語音部分更可能包含關鍵字，而忽略了不相關的部分。我們調查平均注意力和輕微注意力。
平均關注度：Attend模型沒有可訓練的參數，並且將αt設置爲T的平均值：

軟注意力：這種注意力方法是從說話者驗證中借用的[17]。與其他注意層相比，共享參數非線性注意被證明是有效的[17]。我們首先學習標量得分等：

然後我們使用這些標量計算歸一化權重αt分數：

2.3。解碼

如圖1所示，與某些其他方法[9]不同，我們的端到端系統直接輸出置信度評分，而無需進行後處理。與Deep KWS系統類似，當p（y = 1）超過預設閾值時，將觸發我們的系統。在圖2中的解碼過程中，輸入是語音特徵的滑動窗口，其具有預設的長度幷包含整個關鍵字。同時，採用了幀移位。我們系統中的一小部分參數導致佔用內存少。對於滑動窗口，我們只需要向網絡中饋入一幀即可進行計算，而其餘幀已經在上一個滑動窗口中進行了計算。因此，我們的系統具有較低的計算成本。

3. Experiments

3.1。數據集
我們使用從Mi AI Speaker1收集的真實喚醒數據評估了建議的方法。喚醒詞是四個音節的漢語普通話（“ xiao-ai-tong-xue”）。我們收集了〜188.9K個陰性樣本（〜99.8h）和〜1007.4K個陰性樣本（〜1581.8h）作爲訓練集。保留的驗證集有〜9.9K個正例和〜53.0K個負例。測試數據集有〜28.8K個陰性示例（〜15.2h）和〜32.8K個陰性示例（〜37h）。每個音頻幀都是基於40通道Mel-filterbank，25ms開窗和10ms幀偏移來計算的。然後將濾波器組特徵轉換爲每通道能量歸一化（PCEN）[21]梅爾譜圖。

3.2。基準線
我們重新實現了Deep KWS系統[9]作爲基線，在該系統中，網絡預測了喚醒詞和填充詞中四個中國音節的後驗。此處的“填充詞”是指不包含關鍵字的所有語音。具體來說，我們採用了三種不同的網絡，包括DNN，LSTM和GRU。爲了進行票價比較，將網絡配置設置爲與建議的注意力模型具有相似的參數大小。前饋DNN模型具有3個隱藏層和每層64個隱藏節點，且具有線性線性校正（ReLU）非線性。使用具有15個左框架和5個右框架的輸入窗口。 LSTM和GRU模型建立有2個隱藏層和每層64個隱藏節點。對於GRU KWS模型，最後的GRU層後面是具有ReLU非線性的完全連接層。 LSTM和GRU模型的輸入中沒有堆疊的框架。 Deep KWS的平滑窗口設置爲20幀。在KWS模型訓練之前，我們還使用約3000個小時的語音數據訓練了基於TDNN的聲學模型，以執行幀級對齊。

3.3。實驗裝置
在神經網絡模型中，所有的權重矩陣均通過歸一化初始化[22]進行初始化，並且偏差向量被初始化爲0。我們使用ADAM [23]作爲優化方法，同時降低了學習率。從1e-3收斂到1e-4。應用了梯度範數裁剪爲1以及L2權重衰減1e-5。正訓練樣本的幀長爲T = 1.9秒，可確保包括整個喚醒字。因此，在注意模型中，輸入窗口已設置爲189幀以覆蓋喚醒字的長度。我們從否定示例集中隨機選擇了189個連續幀來訓練注意力模型。在運行時，將滑動窗口設置爲100幀，將幀移位設置爲1。通過繪製FRR（每小時1.0 FA的運行閾值）來觀察性能，同時繪製接收器工作曲線（ROC）。
3.4。注意機制的影響
從表1和圖3，我們可以清楚地看到注意力模型的卓越性能。由於參數大小相似，因此建議的注意力模型在很大程度上優於Deep KWS系統。我們還注意到，在Deep KWS和注意力模型中，GRU均優於LSTM。毫不奇怪，基於軟注意力的模型可以實現最佳性能。以每小時1.0 FA的速度運行時，GRU注意模型將FRR從6.38％（GRU Deep KWS）降低到1.93％，顯着降低了誤剔除率。
3.5。編碼器架構的影響
我們進一步關注了編碼器架構的影響。結果總結在表2，圖4和圖5中。從表2中，我們注意到較大的模型總是比較小的模型表現更好。觀察LSTM模型，1-128 LSTM模型以1.0 FA /小時的FRR爲2.99％獲得了最佳性能。在圖4中，以每小時較低的FA重疊1-128 LSTM模型和3-64 LSTM模型的ROC曲線。這意味着使LSTM網絡更寬或更深可以達到相同的效果。然而，從圖5可以看出，對於GRU而言，相同的結論並不成立。 1-128 GRU模型具有明顯的優勢3-64 GRU模型。換句話說，增加節點數可能比增加層數更有效。最終，1-128 GRU模型以1.0 FA /小時的速度達到1.49％的FRR。
3.6。添加捲積層
受[18]的啓發，我們最終研究了添加con-
GRU注意模型中的卷積層爲卷積
網絡通常被用作提取不變特徵的一種方式。對於
在基於CRNN注意的模型中，我們使用了一層CNN
有一個C（20×5）濾鏡。我們探索了不同數量的輸出1×2
通道和結果總結在表3和圖6中。從表3中，我們可以看到添加捲積層可以進一步提高性能。我們使用84.1K參數在1.0 FA /小時的條件下實現了1.02％的最低FRR。另一個觀察結果是16通道模型比8通道模型更好。通過增加層數，8-2-64模型比8-1-64模型獲得了更大的收益。但是，當使用16通道模型增加層數時，我們無法觀察到額外的好處。
作爲總結，圖7繪製了最佳三個系統的ROC曲線。我們可以看到，GRU和CRNN在很大程度上優於LSTM，並且CRNN實現了最佳性能。

4。結論
在本文中，我們提出了一種基於注意力的端到端模型，用於小足跡關鍵詞發現。與Deep KWS系統相比，基於注意力的系統具有出色的性能。我們的系統由兩個主要子模塊組成：編碼器和注意機制。我們探索了編碼器架構，包括LSTM，GRU和CRNN。實驗表明，GRU比LSTM更受青睞，CRNN可獲得最佳性能。我們還探討了兩種注意力機制：平均注意力和柔和注意力。我們的結果表明，軟注意力比平均注意力具有更好的性能。通過約84K的參數，我們的端到端系統最終以1.0 FA /小時的速度達到1.02％的FRR。

圖靈與對話

發佈了60 篇原創文章 · 獲贊 1 · 訪問量 4萬+

私信關注

Attention-based End-to-End Models for Small-Footprint Keyword Spotting基於注意的小腳印關鍵字點對點模型

Abstract

1. Introduction

2. Attention-based KWS

3. Experiments

回顧過去程序的一些注意事項

An End-to-End Architecture for Keyword Spotting and Voice Activity Detection《端到端框架的語音喚醒詞識別檢測》

execl 數據拉取

Deep Learning for Video Game Playing《DQN 在電子遊戲中的應用》

中英文字符混合處理

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結