語音識別中喚醒技術調研

上篇博客(語音識別傳統方法(GMM+HMM+NGRAM)概述)說到我們team要做語音識別相關的項目,而我們公司的芯片是用在終端上的,即我們要做終端上的語音識別。由於目前終端(如手機)上的CPU還不足夠強勁,不能讓語音識別的各種算法跑在終端上,尤其現在語音識別都是基於深度學習來做了,更加不能跑在終端上,所以目前主流的語音識別方案是聲音採集和前處理在終端上做,語音識別算法則放在服務器(即雲端)上跑。雖然這種方案有泄漏隱私(把終端上的語音數據發給服務器)和沒有網絡不能使用等缺點,但也是不得已而爲之的,相信在不久的將來等終端上的CPU足夠強勁了會把語音識別的所有實現都放在終端上的。

 

是不是意味着終端上做不了語音識別相關的算法了?其實也不是,語音喚醒功能是需要在終端上實現的。語音喚醒是指設定一個喚醒詞,如Siri的“Hi Siri”,只有用戶說了喚醒詞後終端上的語音識別功能纔會處於工作狀態,否則處於休眠狀態。這樣做主要是爲了降功耗,增加續航時間。目前很多終端都是靠電池供電的,對功耗很敏感,是不允許讓語音識別功能一直處於工作狀態的。爲此我就對語音喚醒技術做了一番調研。依舊是看各種文檔和博客,然後進行梳理和總結,形成PPT,給組內同學介紹。在此我也把PPT貼出來,給有需要或感興趣的朋友看看,有什麼不正確的也請指正。我的PPT中的一些圖是用的文檔或他人博客裏的,謝謝這些原作者。以下就是我的關於語音喚醒技術的PPT。

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章