ROS實戰（一）語音交互系統的學習：初步瞭解語音交互流程

原創

2018-08-25 15:50

前言

雖然說目前語音識別，合成這塊技術已經很成熟了，沒什麼可以拓展的地方了，但是還是想自己實現一下在ros下進行語音識別以及熟悉整個流程，感覺還是挺cool的。
目前這塊屬科大訊飛和百度語音這兩公司做的不錯，不過還有其他的一些比如：思必馳，捷通華聲，雲之聲，圖靈OS等
ros下的語音交互系統，原生態的主要是支持的一個叫cmu sphinx，

支持多種語言，英語和德語都是支持的。
比如蘋果手機的siri，它主要是Nuance公司來做的，應該是目前語音這塊最前端的公司了，

還有一個叫festival，它是lincx可以簡單實現的一個語音交互系統，它是由愛丁堡大學開源的，測試也很簡單

還有Ekho（餘音）是一個免費、開源的中文語音合成軟件。它目前支持粵語、普通話（國語）、廣東臺山話、詔安客語、藏語、雅言（中國古代通用語）和韓語（試驗中），英語則通過eSpeak或Festival間接實現。Ekho支持Linux、Windows和Android平臺。

介紹完國外的，下面來介紹國內的，國內的語音識別技術如下：

NLU以前叫NLP，其實是一個東西，叫做自然語言處理（natural language process）

語音喚醒

百度語音喚醒

科大訊飛語音喚醒
語音喚醒（VoiceWakeuper）通過辨別輸入的音頻中特定的詞語（如“訊飛語點”），返回被命中（喚醒）結果，應用通過回調的結果，進行下一步的處理，如點亮屏幕，或與用戶進行語音交互等。喚醒資源中含有一個或多個資源，只要命中其中一個，即可喚醒。需下載使用對應的語音喚醒SDK。