（ICASSP 19）AUTOMATIC GRAMMAR AUGMENTATION FOR ROBUST VOICE COMMAND RECOGNITION

會議：ICASSP 2019
論文：AUTOMATIC GRAMMAR AUGMENTATION FOR ROBUST VOICE COMMAND RECOGNITION
作者：Yang Yang ; Anusha Lalitha ; Jinwon Lee ; Chris Lott

ABSTRACT

該文提出了一種新的語法自動擴充流水線，大大提高了小尺寸聲學模型（AM）系統的語音命令識別精度。改進是通過使用替換語法表達式擴充用戶定義的語音命令集（也稱爲語法集）來實現的。對於給定的語法集，一組潛在的語法表達式（候選集）是從特定於AM的統計發音詞典中構造的，該詞典捕獲了由發音、音調、節奏、重音、歧義拼寫和噪聲條件的變化引起的AM解碼中的一致模式和錯誤。利用該候選集，考慮了基於貪婪優化和交叉熵方法（CEM）的算法，利用一個特定於命令的數據集搜索一個增強文法集，提高了識別精度。實驗表明，在不增加虛警率的前提下，本文提出的流水線算法和本文所考慮的算法顯著降低了誤檢率和誤分類率。實驗也證明了CEM方法比貪婪算法具有一致的優越性能。

CONCLUSION AND FUTURE WORK

本文研究的是一個由基於CTC的小容量聲碼器和相應的最大後驗碼器組成的小容量語音命令識別系統，用於識別有限的固定命令集。在command specific dataset上，我們提出了一種新的管道，它可以自動增加命令語法，以提高mis檢測和mis分類率。我們通過使解碼器適應聲學模型一致的解碼變化來實現這一點。未來工作的一個重要方向是擴展我們的語法擴充管道以提供個性化，即通過使解碼器更好地適應AM和用戶的發音模式來提高特定用戶的識別精度。

INTRODUCTION

從智能手機到汽車，語音UI在所有類型的設備中無處不在。自從基於深度神經網絡的解決方案問世以來，儘管我們已經看到文獻報道的語音識別準確度有了實質性的改善[1]，[2]，[3]，[4]因此，在沒有基於雲的後端的情況下爲低內存/低功耗嵌入式設備設計健壯的語音UI系統仍然是一個難題。與基於雲的對等設備相比，設備上的推理儘管受到計算能力，內存大小和功耗的限制，但仍具有吸引力，原因有以下幾個方面：（i）由於無需將用戶語音數據上傳到設備，因此隱私問題較少雲端; （ii）減少了延遲，因爲它不涉及網絡訪問延遲；（iii）它的使用不受互聯網可用性的限制，並且可以在沒有內置通信模塊的設備中使用。

在這項工作中，我們專注於提高設備上語音UI系統的識別精度，這些系統旨在響應一組有限的預定義語音命令。此類語音UI系統通常用於現代IoT /嵌入式設備，例如藍牙揚聲器，便攜式攝像機，聽覺設備，家用電器等。特別地，我們假設音頻前端固定，並且僅查看將聲學特徵映射到語音的管道命令。

如圖1所示，我們專注於語音命令識別系統，該系統由聲學模型（AM）編碼器組成，該編碼器將聲學特徵轉換爲基於音素/字素的概率輸出，然後是解碼器（例如FST），將從AM到語音命令之一的概率輸出。最新的聲學模型利用CTC [5]，RNN換能器[4]或注意力模型[6]（請參閱[7]，[8]以獲得很好的總結）。它們生成概率輸出，該概率輸出被饋送到解碼器，該解碼器生成相應音素或字素標籤的後驗概率。即使這些模型體系結構和訓練方法導致令人滿意的甚至超人的轉錄準確性，但獲得的最佳模型通常對於在小型便攜式設備中的部署而言仍然太大，例如，即使是[9]中考慮的最小模型（其中的表11））的參數爲18M。

在這項工作中，我們利用Librispeech [10]和其他一些數據集，利用CTC標準訓練的211K參數基於單向RNN的聲學模型，輸出了字素目標的概率。由於模型尺寸小，其轉錄準確性低：在Libri-speech測試乾淨的數據集上，沒有任何語言模型的貪婪解碼詞錯誤率（WER）爲48.6％。因此，我們的工作解決的挑戰之一是，給定一個使用通用語音數據集訓練的小型聲學模型，如何利用有限的特定於命令的數據來提高命令識別精度。在[11]和[12]中已經考慮過將如此小的足跡AM用於關鍵字檢測。。我們的工作通過以較小的佔位面積AM來提高命令命令識別精度來擴展這些功能。

在表1中，我們列出了211K參數聲學模型中貪婪解碼結果的一些樣本。值得注意的是，即使單詞錯誤率很高，它產生的錯誤也往往是正確單詞[1]的語音似真再現。通過大型數據集，我們還觀察到錯誤模式在不同話語下趨於一致。這導致了一個有用的見解：對於識別有限的一組語音命令（又稱解碼器的語法），可以通過添加一些變量來提高識別精度，這些變量將從聲學模型中捕獲常見和一致的錯誤，並添加到原始命令集中。我們將語法定義爲一組有效的語音命令（例如，語法可以爲{ 播放音樂，停止音樂，…… }），我們將這種爲原始語法添加變體的技術稱爲語法增強。有效的語法擴充是這項工作的重點。

本文的主要貢獻是設計了有效的語法擴充框架，該框架對基準系統進行了重大改進。接下來，我們詳細介紹我們的主要貢獻：（a）對於任何給定的原始語音命令集，我們建議設計一個所有語法變異的候選集，該候選集捕獲給定AM的一致錯誤（b）我們提出一種技術爲了快速評估命令識別精度以及任何擴充語法集的錯誤警報和誤檢測率，最後（c）我們設計了各種算法，通過適當地添加候選集與原始集之間的差異，自動識別出改進的擴充語法集語法。

我們使用上述技術的新穎管道如圖2所示。本文的其餘部分安排如下：在第2節中，我們概述了建議的語法擴充管道，並深入探討了候選集和快速語法評估技術的生成。在第3節中，通過貪婪優化算法和CEM算法來使語法增強過程自動化。實驗結果在第4節中介紹，我們在第5節中討論未來的方向。

PIPELINE FOR AUTOMATIC GRAMMAR AUGMENTATION

我們的AM被訓練與CTC損失[5] ，並且因此可以分配一個後驗概率ℙ CTC（克| U）爲每個命令克在的命令集，用於發聲輸入Ú。對於給定的測試發聲，我們的系統會選擇概率最高的命令，如果最高發聲率低於預定義的置信度閾值（請參見第2.3節），則拒絕該發聲[13] [14]。

如果AM輸出偏離基本事實到無法再成功區分其他語法序列的程度，則會發生命令解碼錯誤。語法增強的思想是通過在語法中包括捕獲語音變化或一致的AM錯誤模式的序列變化來恢復聲學模型的判別能力。爲此，我們從生成包含有意義變體的候選集開始。

2.1. AM-specific statistical pronunciation dictionary
理想情況下，增強候選應從AM捕獲一致的錯誤模式，該錯誤模式是由發音，音調，速度，重音，模棱兩可的拼寫甚至AM固有的錯誤引起的。例如，如果任何命令包含具有同音詞的單詞，則有必要考慮將這些同音詞添加到語法中。爲了捕獲這些詞級變化，我們引入了一個新穎的概念，稱爲AM專用統計發音詞典，可通過以下步驟獲得：首先，我們通過大型的通用語音數據集（例如AM的訓練集）運行AM。對於每種話語，我們通過在每個時間幀輸出具有最大概率的字符，然後是CTC壓縮函數，來獲得其貪婪解碼序列[5]摺疊重複的輸出字素並清除空白。鑑於一般語音數據集中的大多數話語都對應於一個句子而不是一個單詞，因此我們使用Levenshtein算法來找到基本事實到解碼的最小編輯路徑，並以此獲得每個單詞的映射爲其相應的最大概率解碼。對於每個單詞，我們收集有關其最大概率解碼輸出的頻率的統計信息。在這裏，我們對使用211K參數AM獲得的字典中的一些條目進行採樣：

2.2. Candidate set for grammar augmentation
利用該統計字典，我們通過用其前k個可能的最大解碼輸出重複替換原始語法中的每個單詞，來構建包含潛在語法變化的候選集。考慮一個用於小型藍牙播放器的語音UI應用程序，可以使用以下五個命令來構成原始語法。

通過在統計字典中查找原始語法中包含的單詞，可以形成一系列原始命令的替代表達式，如上所示。對於每個命令，候選集是該命令中每個單詞的統計發音詞典中前k個解碼列表的笛卡爾積。k的值對於不同的單詞可能會有所不同，並且被選擇爲捕獲所有變體中的至少一部分。

2.3. Evaluation of command recognition accuracy
略~

AUGMENTATION SEARCH ALGORITHMS

我們考慮的語法擴充算法是在候選集的所有子集中搜索語法集GG通過固定的錯誤警報目標α使誤檢測率和誤分類率的加權和最小，

在此，權重因子β控制着誤檢測與誤分類的重要性。由於我們按照公式（1）預先計算了概率，因此對於每個語法摹⊆ g ^ 目標函數可以在不調用AM的情況下進行評估，從而大大加快了搜索算法的速度。

重要的是要注意，向語法添加候選項並不總是會提高性能：（i）對於固定的虛警目標，添加更多候選項只會增加置信度閾值τ（G，α），這可能會導致錯誤程度降低-檢測率。（ii）命令的可區分性具有複雜的相互依賴性，因此爲一個命令添加語法候選可能會降低其他命令的識別率，因爲這可能會更改命令集之間的分類邊界。

3.1. Augmentation via greedy optimization methods
我們考慮以下三種基於貪婪優化的方法：

天真的貪婪搜索：從原始語法開始，反覆遍歷所有G。在每次迭代中，添加最能改善目標函數的候選者並更新置信度閾值以維持目標FAR，直到沒有候選者可以進一步改善爲止。

細化貪婪搜索：該算法與貪婪搜索相似，不同之處在於每次將候選添加到語法中時，我們都會在包含添加的候選作爲子序列的其餘候選中刪除那些候選。例如，對於暫停音樂命令，如果將候選姿勢音樂添加到語法中，則從後續迭代中刪除無聊音樂。以這種方式修剪候選集會增加語法變化的多樣性。

波束搜索：在每次迭代中，將維護 l個最佳語法集的列表。當 l = 1時，這退化爲樸素的貪婪算法。

3.2. Augmentation via cross entropy method (CEM)
交叉熵方法（CEM）是一種廣泛使用的組合優化算法，已成功應用於一些強化學習問題[15]，[16]。主要思想源於稀有事件採樣，對於該事件，算法嘗試將建議的採樣分佈與最佳零方差重要性採樣分佈之間的KL差異最小化[16]。
略~

EXPERIMENTS

在本節中，我們將提供一些實驗，這些實驗說明了通過應用我們的語法增強算法可以提高識別精度。所有結果都是通過包含5個命令的數據集獲得的：播放音樂，暫停音樂，停止音樂，下一首和上一首歌。該數據集包含具有不同性別，音調，音量，噪聲類型和重音的語音，並分爲訓練，驗證和測試數據集。訓練數據集用於訓練擴充搜索算法以最小化（2）中定義的目標。驗證數據集用於比較所獲得的語法集的性能，並決定採用哪個語法集。最後，我們在測試數據集上報告最終語法集的結果。在訓練目標函數式（2），我們選擇β = 1，在這種情況下，最小化的MDR和MCR相當於最大化命令成功率之和1 - MCR（G，α）- MDR（G，α）。使用第2.1節和第2.2 節中討論的步驟，通過運行2000小時數據集的211K參數AM獲得候選集。我們考慮150名語法候選人（| G| = 150）使用我們的統計發音詞典。

4.1. Performance Evaluation
我們以固定的FAR目標α = 0.1％來分析第3節中描述的語法增強算法，並比較每種算法輸出的增強語法。圖3顯示了命令成功率以及錯誤檢測和錯誤分類的錯誤分解。請注意，與基於貪婪優化的算法不同，CEM算法可以最大程度地提高命令成功率，因爲該算法可能會盡早採用次優語法集。如前所述，向語法集添加更多變體會使它更容易受到錯誤檢測錯誤的影響。實際上，添加所有150個語法表達式會將命令成功率降低到80％，並將MDR增加到13.76％。但是，圖3 結果表明，以有原則的方式執行增強可以大大減少錯誤分類錯誤，而不會增加錯誤檢測錯誤。

4.2. Complexity of Grammar Augmentation Algorithms
我們評估了第3節中考慮的增強算法的複雜性。在實現我們的擴充算法中，計算上最昂貴的步驟是對任何候選語法集的MCR和MDR評估。因此，我們根據輸出最佳擴展語法集所需的語法評估次數來衡量擴展算法的複雜性。圖4說明了隨着語法評估次數的增加，命令成功率（1-MDR-MCR）的變化/提高。請注意，CEM僅略微進行更多評估，同時最大程度地減少了MCR和MDR之和。雖然Beamsearch進行了更多探索，並且需要更多的語法評估，但與單純的貪婪相比，它只能提供稍微更好的改進。貪婪算法的改進在最少數量的語法評估中達到了最佳性能。這表明在探索中激勵多樣性可以更好地提高命令成功率和減少評估次數。

4.3. Effect of Candidate Set Size on Performance
到目前爲止，我們認爲候選集大小爲150 （| G| = 150）。接下來，我們研究改變候選集大小對增強算法性能的影響。我們通過改變從統計發音詞典中每個單詞的前k個可能的最大解碼輸出中選擇的單詞數k來改變候選字的大小。因此，較大的候選大小會捕獲較大的最大解碼輸出概率。我們通過將候選集大小從25更改爲150來重複我們的實驗。表2顯示了各種候選集大小的增強算法的性能。特別是，它表明CEM隨着我們增加候選集而有所改善，並且始終優於基於貪婪的算法。

（ICASSP 19）AUTOMATIC GRAMMAR AUGMENTATION FOR ROBUST VOICE COMMAND RECOGNITION

ABSTRACT

CONCLUSION AND FUTURE WORK

INTRODUCTION

PIPELINE FOR AUTOMATIC GRAMMAR AUGMENTATION

AUGMENTATION SEARCH ALGORITHMS

EXPERIMENTS

（ICASSP 19）EFFICIENT KEYWORD SPOTTING USING DILATED CONVOLUTIONS AND GATING

（Interspeech 15）Convolutional neural networks for small-footprint keyword spotting

（ISCSLP 16）End-to-end keywords spotting based on connectionist temporal classification for Mandarin

（IS 19）Unsupervised Raw Waveform Representation Learning for ASR

（ICASSP 19）AUTOMATIC GRAMMAR AUGMENTATION FOR ROBUST VOICE COMMAND RECOGNITION

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結