語音識別中喚醒技術調研

原創

2020-06-10 07:46

上篇博客（語音識別傳統方法(GMM+HMM+NGRAM)概述）說到我們team要做語音識別相關的項目，而我們公司的芯片是用在終端上的，即我們要做終端上的語音識別。由於目前終端（如手機）上的CPU還不足夠強勁，不能讓語音識別的各種算法跑在終端上，尤其現在語音識別都是基於深度學習來做了，更加不能跑在終端上，所以目前主流的語音識別方案是聲音採集和前處理在終端上做，語音識別算法則放在服務器（即雲端）上跑。雖然這種方案有泄漏隱私（把終端上的語音數據發給服務器）和沒有網絡不能使用等缺點，但也是不得已而爲之的，相信在不久的將來等終端上的CPU足夠強勁了會把語音識別的所有實現都放在終端上的。

是不是意味着終端上做不了語音識別相關的算法了？其實也不是，語音喚醒功能是需要在終端上實現的。語音喚醒是指設定一個喚醒詞，如Siri的“Hi Siri”，只有用戶說了喚醒詞後終端上的語音識別功能纔會處於工作狀態，否則處於休眠狀態。這樣做主要是爲了降功耗，增加續航時間。目前很多終端都是靠電池供電的，對功耗很敏感，是不允許讓語音識別功能一直處於工作狀態的。爲此我就對語音喚醒技術做了一番調研。依舊是看各種文檔和博客，然後進行梳理和總結，形成PPT，給組內同學介紹。在此我也把PPT貼出來，給有需要或感興趣的朋友看看，有什麼不正確的也請指正。我的PPT中的一些圖是用的文檔或他人博客裏的，謝謝這些原作者。以下就是我的關於語音喚醒技術的PPT。