一文告訴你智能語音中的VAD模塊爲什麼這麼重要

計算機交互技術通過幾年連續開發,語音信號中包含的情感信息越來越受到關注。通常,語音信號的感情特徵多通過語音韻律的變化來表現。例如,當人們生氣或驚訝時,演講速度會增加,音量會增加,音調也會改變,而當你憂鬱或傷心時,聲音往往很低。因此,振幅的結構、發音的持續時間、說話速度等語音信號的特徵是所有重要的研究特徵。

在進行語音識別的過程中,系統的處理對象是有效語音信號。尤其在在多人說話的情況下,如果不對輸入信號做分離處理而直接進行語音識別的話,識別效果會很差。這時,需要從輸入信號中找到語音部分的起止點和終止點,從中抽取語音情感識別所需的信號特徵。這樣的語音信號“切割”過程被稱爲語音端點檢測(Voice Activity Detection,VAD),是一種驅動性的語音信號處理技術。

簡單來說,VAD就是將有效的語音信號和無用的語音信號或者噪音信號進行分離,以使後續的說話人識別、語義識別及語音情感分析等工作更加高效,是語音處理過程非常必要且關鍵的環節。
1.在存儲或傳輸語音的場景下,從連續的語音流中分離出有效語音可以降低存儲或傳輸的數據量;
2.只針對有效語音信號進行識別工作,在不降低語音信息量的前提下,可大大降低語音識別系統的運算量;
3.由於去除了非語音信號的中噪聲的干擾,系統的識別準確率也得到了極大提高;VAD技術的興起。

在VAD技術應用比較廣就是智能電話機器人的開發,很多行業內部人士已經接觸過電銷機器人,並且我們在生活中也接到過許多機器人打來的電話。比如,一些來自企業招聘、教育培訓、電話服務、等企業的銷售電話。機器人代替人工作業已經屢見不鮮,但機器人代替人工打電話並且進行推銷業務,這樣的電話機器人好不好用,行業間一直有此疑問。

其次就是騷擾電話的層出不窮,好在今年3.15整治下,一些使用氾濫技術的企業都得到了應有的懲罰。同時爲了整頓行業內部,也出臺了相關的規定,在諸多條件的限制下,語音交互市場也慢慢走上了正軌。

回到上面的話題從最早1959年,貝爾實驗室率先將VAD技術應用於電話傳輸,到後來日本、英國、美國等各國專家相繼提出基於頻域、基於人工神經網絡算法、基於倒譜距離等多種語音端點檢測方法,語音技術便進入高速發展階段。

目前,端點檢測的方法主要有兩大類,一是基於語音特徵的檢測方法,該方法的關鍵在於對信號提取其魯棒性特徵,以便能夠很好地區分語音/非語音。近幾年使用該方法的檢測算法主要有:基於能量特徵、基於週期特徵及基於多特徵融合等算法,此方法對多種低信噪比(信噪比越低,混在信號裏的噪聲越大)的情況有着較好的檢測正確率。
第二種是決策規則的檢測方法,包括基於統計模型和基於機器學習的檢測方法,是近年來的研究熱點。其中基於機器學習的端點檢測方法是將語音的檢測轉換成一個二元分類的問題,然後訓練其學習其語音和噪聲的不同特性。
VAD技術的應用難點和要求
目前,許多VAD算法都需要用到一些假設來保證實現良好的檢測性能,如:
· 在比較長的一段時間內,背景噪音是平穩的;
· 語音能量要高於噪音的能量,即信噪比高(混在信號裏的噪聲小);
· 語音譜比噪音普更加有序;
· 語音信號的週期性要比噪音的週期性好;
如果上述假設都可以滿足,我們就可以使用較爲簡單的檢測算法做出正確的檢測。但在實際情況中 ,上述假設很難同時滿足。因此,一個性能良好的VAD算法需要滿足以下要求:
· 在較低信噪比下仍有精準的檢測能力;
· 使用多個特徵聯合進行檢測,特別是那些可以充分表徵語音信號和噪音信號之間差異的特徵;
· 在背景噪音有變化或未知噪音類型的情況下仍能較好的檢測,即噪音適應性好;
· 對於與噪音特性相似的清音、爆破音和摩擦音等信號,能夠將其正確檢測爲語音,儘可能的避免丟失。

以歐能智能的產品爲例,通過語音情緒識別等情感計算技術爲教學“賦能”,幫助企業和用戶提供更個性化的指導。對語音信號處理技術VAD的逐步應用和深入研究,這些方面的研發將幫助歐能研發團隊大幅縮短數據處理時間,提高語音識別系統準確率,快速驅動更高效的產品落地。

智能語音技術是人工智能應用最成熟的技術之一,並擁有交互的自然性,因而具有巨大的市場空間。科技巨頭都在打造自己的智能語音生態系統,在語音識別程序中,爲了解決電話機器人好不好用的問題,減少了17%的運算時間,從而使得識別準確率相對提高了1%。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章