前言
雖然說目前語音識別,合成這塊技術已經很成熟了,沒什麼可以拓展的地方了,但是還是想自己實現一下在ros下進行語音識別以及熟悉整個流程,感覺還是挺cool的。
目前這塊屬科大訊飛和百度語音這兩公司做的不錯,不過還有其他的一些比如:思必馳,捷通華聲,雲之聲,圖靈OS等
ros下的語音交互系統,原生態的主要是支持的一個叫cmu sphinx,
支持多種語言,英語和德語都是支持的。
比如蘋果手機的siri,它主要是Nuance公司來做的,應該是目前語音這塊最前端的公司了,
還有一個叫festival,它是lincx可以簡單實現的一個語音交互系統,它是由愛丁堡大學開源的,測試也很簡單
還有Ekho(餘音)是一個免費、開源的中文語音合成軟件。它目前支持粵語、普通話(國語)、廣東臺山話、詔安客語、藏語、雅言(中國古代通用語)和韓語(試驗中),英語則通過eSpeak或Festival間接實現。Ekho支持Linux、Windows和Android平臺。
介紹完國外的,下面來介紹國內的,國內的語音識別技術如下:
NLU以前叫NLP,其實是一個東西,叫做自然語言處理(natural language process)
語音喚醒
百度語音喚醒
科大訊飛語音喚醒
語音喚醒(VoiceWakeuper)通過辨別輸入的音頻中特定的詞語(如“訊飛語點”),返回被命中(喚醒)結果,應用通過回調的結果,進行下一步的處理,如點亮屏幕,或與用戶進行語音交互等。喚醒資源中含有一個或多個資源,只要命中其中一個,即可喚醒。需下載使用對應的語音喚醒SDK。
語音聽寫主要API調用流程如下圖所示:
思必馳 收費
像如上所述的語音識別方面的公司都提供在線體驗功能,感興趣的可以登錄其官網體驗一下。效果還是不錯的。
語音識別ASR
百度在線語音識別
科大訊飛在線語音識別ASR
雲之聲在線識別ASR
語義理解
圖靈機器人 免費在線使用5000次每天
雲之聲 在線體驗
科大訊飛 免費在線使用體驗
捷通華聲(靈雲在線體驗)
語音合成TTS
科大訊飛語音合成TTS
雲之聲
百度在線語音
捷通華聲
接下來的教程會逐漸把這些語音交互流程與ros結合起來,並且在ros上實現。比如語音合成啊,語音識別啊,語義理解啊,讓機器人也具備語音交互功能。