ROS實戰(一) 語音交互系統的學習:初步瞭解語音交互流程

前言

雖然說目前語音識別,合成這塊技術已經很成熟了,沒什麼可以拓展的地方了,但是還是想自己實現一下在ros下進行語音識別以及熟悉整個流程,感覺還是挺cool的。
目前這塊屬科大訊飛和百度語音這兩公司做的不錯,不過還有其他的一些比如:思必馳,捷通華聲,雲之聲,圖靈OS等
ros下的語音交互系統,原生態的主要是支持的一個叫cmu sphinx,
這裏寫圖片描述
支持多種語言,英語和德語都是支持的。
比如蘋果手機的siri,它主要是Nuance公司來做的,應該是目前語音這塊最前端的公司了,
這裏寫圖片描述
還有一個叫festival,它是lincx可以簡單實現的一個語音交互系統,它是由愛丁堡大學開源的,測試也很簡單
這裏寫圖片描述
還有Ekho(餘音)是一個免費、開源的中文語音合成軟件。它目前支持粵語、普通話(國語)、廣東臺山話、詔安客語、藏語、雅言(中國古代通用語)和韓語(試驗中),英語則通過eSpeak或Festival間接實現。Ekho支持Linux、Windows和Android平臺。
這裏寫圖片描述
介紹完國外的,下面來介紹國內的,國內的語音識別技術如下:
這裏寫圖片描述

NLU以前叫NLP,其實是一個東西,叫做自然語言處理(natural language process)

語音喚醒

百度語音喚醒
這裏寫圖片描述
科大訊飛語音喚醒
語音喚醒(VoiceWakeuper)通過辨別輸入的音頻中特定的詞語(如“訊飛語點”),返回被命中(喚醒)結果,應用通過回調的結果,進行下一步的處理,如點亮屏幕,或與用戶進行語音交互等。喚醒資源中含有一個或多個資源,只要命中其中一個,即可喚醒。需下載使用對應的語音喚醒SDK。
這裏寫圖片描述

語音聽寫主要API調用流程如下圖所示:
這裏寫圖片描述
思必馳 收費
這裏寫圖片描述
像如上所述的語音識別方面的公司都提供在線體驗功能,感興趣的可以登錄其官網體驗一下。效果還是不錯的。

語音識別ASR

百度在線語音識別
這裏寫圖片描述
科大訊飛在線語音識別ASR
這裏寫圖片描述
雲之聲在線識別ASR
這裏寫圖片描述

語義理解

圖靈機器人 免費在線使用5000次每天
這裏寫圖片描述
雲之聲 在線體驗
這裏寫圖片描述
科大訊飛 免費在線使用體驗
這裏寫圖片描述
捷通華聲(靈雲在線體驗)
這裏寫圖片描述

語音合成TTS

科大訊飛語音合成TTS
這裏寫圖片描述
雲之聲
這裏寫圖片描述
百度在線語音
這裏寫圖片描述
捷通華聲
這裏寫圖片描述
接下來的教程會逐漸把這些語音交互流程與ros結合起來,並且在ros上實現。比如語音合成啊,語音識別啊,語義理解啊,讓機器人也具備語音交互功能。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章