(ICASSP 19)END-TO-END STREAMING KEYWORD SPOTTING

會議:ICASSP 2019
論文:END-TO-END STREAMING KEYWORD SPOTTING
作者:Raziel Alvarez, Hyun Jin Park, Google, Inc., United States

ABSTRACT

  提出了一個關鍵詞識別系統,除了用於特徵生成的前端組件外,它完全包含在經過“端到端”訓練的深度神經網絡(DNN)模型中,用於預測音頻流中關鍵詞的存在。這項工作的主要貢獻是,首先,一個有效的記憶神經網絡拓撲,目的是更好地利用參數和相關的計算,在DNN的深度上保存以前的激活分佈的記憶。第二個貢獻是對DNN進行端到端的訓練,生成關鍵字定位分數。該系統在檢測質量、規模和計算量方面都明顯優於以往的方法。
##一、 INTRODUCTION
  隨着發展,關鍵詞查找已經成爲一種生活方式,對於關鍵字識別系統而言, 既高質量又高效這一點很重要。
  神經網絡是最先進的關鍵詞識別系統的核心,它們傳統上由不同的子系統組成,例如一個典型的系統有三個主要部分組成:信號處理前端、聲音編碼器、單獨的解碼器。這些組件中,最後兩個組件使用DNN以及各種各樣的解碼實現。它們包括傳統的方法,利用HMM來面熟從DNN到“keyword”和“background”(即非關鍵字語音和噪聲)類的聲學特徵[1,2,3,4,5]。該方法的更簡單的衍生物執行時間積分計算,以驗證聲學模型的輸出在目標關鍵字的正確序列中是高的,以便產生單個檢測似然分數[6、7、8、9、10]。其他最新的系統利用了CTC訓練的DNN——通常是遞歸神經網絡(RNN)甚至依賴於波束搜索解碼的序列到序列訓練模型[12]。 最後一組系統最接近端到端系統,但是對於許多嵌入式應用程序而言,它們通常在計算上過於複雜。
  但是,優化獨立的組件會增加複雜性,並且與聯合執行相比,其質量次優。由於額外的複雜性,部署也會受到影響,這使得優化資源(例如處理能力和內存消耗)變得更加困難。本文描述的系統通過將編碼器和解碼器組件都學習到單個深度神經網絡中,共同優化以直接產生檢測可能性得分,從而解決了這些問題。可以訓練該系統來包含信號處理前端以及在[3,13]中,但是用等效質量的神經網絡替換高度優化的快速傅立葉變換實現通常在計算上是昂貴的。但是,這是我們將來考慮探索的事情。總的來說,與[14]中描述的傳統的非端到端基線系統相比,我們發現該系統在許多音頻和語音條件下都可以提供最先進的質量。此外,與基線系統相比,擬議的系統將計算和大小縮減了五倍,從而大大降低了部署所需的資源。
  本文的其餘部分安排如下。 在第2節中,我們介紹了關鍵字搜尋系統的體系結構; 特別是這項工作的兩個主要貢獻:神經網絡拓撲和端到端訓練方法。 接下來,在第3節中,我們將描述實驗設置,並在第4節中,我們將評估的結果與[14]的基線方法進行比較。 最後,我們在第5節中討論了我們的發現。

END-TO-END SYSTEM

  本文提出了一種新的端到端的關鍵詞識別系統,通過將編碼和解碼部分都包含在一個單一的神經網絡中,可以直接訓練出流音頻中關鍵詞存在的估計值(即分數)。以下兩部分介紹了所使用的高效記憶神經網絡拓撲結構,以及訓練端到端神經網絡直接產生關鍵詞識別分數的方法。

1、高效記憶神經網絡拓撲
在這裏插入圖片描述
在這裏插入圖片描述

2、訓練端到端神經網絡的方法
  我們端到端培訓的目標是優化網絡以產生可能的分數,並儘可能精確地做到這一點。這意味着在流式音頻中關鍵字的最後一個it出現的地方獲得高分,而不是在之前,尤其是之後(即,希望出現“尖刺”行爲)。這一點這一點很重要,因爲系統被綁定到一個由閾值(介於0和1之間)定義的操作點,該閾值用於在錯誤接受和錯誤拒絕之間取得平衡,平滑的似然曲線將增加觸發點的可變性。此外,在關鍵字的真正結尾和分數達到閾值之間的任何時間,都將成爲系統中的延遲(例如,“助手”將很慢地做出響應)——這是CTC培訓RNN[20]的一個共同缺點,我們旨在避免。

  • Label generation
    在這裏插入圖片描述
  • Training recipe
      端到端訓練使用一個簡單的幀級交叉熵(CE)損失;訓練方法使用異步隨機梯度下降(ASGD)來生成單個神經網絡,該神經網絡可以饋入流輸入特徵並生成檢測得分。

EXPERIMENTAL SETUP

  爲了確定該方法的有效性,我們將其與文獻[14]中提出的一個已知的關鍵詞識別系統進行了比較。本節介紹“結果”部分中使用的設置。
文獻:T. Sainath and C. Parada, “Convolutional neural networks for
small-footprint keyword spotting.,” in Proceedings of Annual
Conference of the International Speech Communication Asso-
ciation (Interspeech), 2015, pp. 1478–1482.

1、 Front-end
  兩種設置使用相同的前端,在30ms流音頻窗口中產生40維對數mel濾波器組能量,重疊時間爲10ms。此外,可以使用給定的步長σ來請求序列。
2、Baseline model setup
  基線系統(基線1850K)取自[14]。它由一個DNN訓練來預測關鍵字中的子詞目標。DNN的輸入由一個序列組成,左C l=30幀,右C r=10幀,每個序列的步長爲σ=3。該拓撲結構由一個1-D卷積層和92個濾波器(8x8形狀和8x8跨距)組成,接着是3個完全連接層,每個層有512個節點和一個校正的線性單元激活。最終的softmax輸出預測9個子字目標(“k”和“h”共享“Ok/Hey Google”檢測標籤),從2.2.1中描述的相同強制對齊過程獲得。這導致基線DNN包含1.7M參數,並且每次推理執行1.8M乘累加操作(每30ms流音頻)。通過首先平滑後驗值,在前100幀相對於當前t的滑動窗口上平均後驗值,計算出0到1之間的關鍵字定位得分;然後將得分定義爲滑動窗口中平滑後驗值的最大乘積,如最初在[7]中提出的那樣。
3、End-to-end model setup
  端到端系統(prefixE2E)使用圖3所示的DNN拓撲,並且所有SVDF層的等級均爲1。我們提供了3個不同大小的配置(中綴700K,318K和40K)的結果,每個配置代表大約數量參數的定義,以及分別對應於端到端和編碼器解碼器的2個訓練配方變體(後綴1stage和2stage)
4、Dataset
  所有實驗的訓練數據均包含100萬個由匿名詞“ Ok Google”和“ Hey Google”手工轉錄而成的語音,分佈均勻。

RESULTS

  評估錯誤拒絕(FR)和錯誤接受(FA)權衡在幾個不同的大小和計算複雜度的端到端模型。
在這裏插入圖片描述

CONCLUSION

  提出了一個關鍵字識別系統,通過結合有效的拓撲結構和兩種端到端訓練,可以顯著地優於以前的方法,同時大大降低了規模和計算成本。特別展示了它是如何超越[14]中的一個設置的性能的,該設置的模型要小5倍以上,甚至要接近40倍以上的模型的性能。我們的方法提供了更多的好處,除了前端和神經網絡之外不需要任何東西來執行檢測,因此更容易擴展到更新的關鍵字和/或使用新的訓練數據進行微調。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章