首發地圖智能語音交互解決方案,你值得擁有

現在用戶不僅可以在百度地圖體驗語音交互,在很多集成了地圖服務的智能終端和APP上,也有地圖語音交互需求。

例如家居智能音箱,用戶可以吃着早餐、換着衣服問:“去公司要多久後?”、“後場村路堵不堵?”不用再拿起手機操作。

對於車載智能機器人,在開車時可以直接詢問:“最近的加油站/充電樁在哪?”

對於智能穿戴設備,例如智能兒童手錶,手錶可操作的界面很小,它是天然的語音交互場景。比如兒童可以對着手錶說“請帶我回家”,直接發起語音導航帶着兒童回家。

對於交通出行類手機應用,如網約車、分時租賃、物流等,通過語音查詢地點、查詢路線也是很常見的應用需求。

針對以上場景,百度地圖開放平臺聯合百度AI開放平臺將百度地圖語音交互能力向第三方開發者開放——“地圖智能語音交互解決方案”,幫助更多的智能硬件和手機應用便捷地集成地圖語音交互能力。整個方案包括語音喚醒與識別、語義的理解與交互、地圖服務調用語言生成、語音合成五個步驟。

 

地圖語音交互解決方案如何工作

 

第一個步驟語音喚醒與識別,成功喚醒之後機器人開始接收我們的指令。百度語音SDK裏集成了語音喚醒能力,開發者可以定義喚醒詞,例如百度地圖的喚醒詞是“小度小度”,當然開發者也可以根據自己的產品設計其他喚醒詞。

 

在語音識別方面(將語音準確地轉化爲文字)。針對基於位置服務的語音交互場景,語音識別提供了兩個產品,第一個是遠場的語音識別,第二個是近場的語音識別。遠場的語音識別適用於人和設備在3—5米的距離,它適用於智能音箱、智能車載設備這樣用戶和設備較遠的場景。近場語音識別適用於人和設備在1米以內的場景,例如智能穿戴設備或者手機應用。針對這兩種場景提供了不同的語音服務和識別模型,幫助我們提高語音識別的準確率。除此以外,語音開放平臺針對基於位置服務的場景優化了語音識別的模型,對地圖的數據,包括地圖特殊的指令,進行語音識別模型的專項訓練,使得百度的語音識別在地圖的使用場景裏達到非常高的識別率。

    

當通過語音識別將語音轉成文字後,機器人還是不能理解用戶的指令,需要通過語義理解與交互將文字轉換爲機器能理解的意圖和關鍵信息,這就是第二步語義理解與交互。例如“附近的麥當勞”這句話,需要通過語義理解將其拆解爲意圖是“查找地點”,關鍵信息是地點“麥當勞”,進行這樣的拆解後,機器人才能知道我接下來需要調用查找地點接口,並傳入“麥當勞”關鍵字來獲取結果答覆給用戶。以上是一個單輪交互的示例,事實上很多的場景,單輪的交互並不能讓機器人理解你的意思,例如找完附近的麥當勞之後我還需要導航去最近的一個,這就是一種多輪交互,或者用戶第一次沒有表達完整他的意思,機器人要詢問和引導用戶進一步澄清命令,通過多輪的交互明確用戶的指令。那麼如何讓機器具備語義理解和複雜對話管的能力呢,百度AI開放平臺了UNIT -- 語義理解與交互技術平臺,開發者可以利用這個平臺定製屬於自己的對話機器人。通過開發者在平臺上配置的對話模板、詞槽、訓練數據等,可以教授它各種語義理解和交互的技能,比如說如何理解用戶要縮放地圖的語義,如何理解用戶找地點的語義。通過一系列這樣的定製,開發者可以擁有一個自己的理解自己業務場景語義,並具備交互能力的小機器人。

 

當機器人理解用戶指令後,就要開始調用地圖服務來完成指令了。目前地圖服務全面向語音場景開放,包括定位能力,比如說用戶可以問“我在哪兒”。包括地圖展示的操控能力,比如“地圖放大一點”,“地圖縮小一點”,或者“想看全景地圖”。包括地點搜索能力,比如搜索“附近的銀行”,“附近的洗衣店在哪兒”,或者查詢一個精確的地點,比如:“國家圖書館在哪兒”,這些地圖命令都能很好的執行或返回。同時包括駕車和公交等等路線規劃和導航能力,以及道路路況查詢。用戶可以問“後廠村路堵不堵”,它會告訴你“後廠村路擁堵500米,較10分鐘前加重”。

 

請求完地圖服務之後,需要將獲取到的結果進行拼裝,組成用戶能理解的流暢語言。例如進行路線規劃後,會返回路線的耗時是多少秒,路線距離多長等結構化數據,需要組裝成“從當前位置出發去國家圖書館,全程22千米,耗時55分鐘,途徑京承高速、北三環西路...”這就涉及到一個語言的生成過程。目前地圖正在一些產品上進行升級,不僅僅只輸出結構化的結果,還會將結構化的輸出拼裝成用戶理解的語義。這樣開發者不需要拼裝語言了,可以直接拿拼裝好的語言輸出結果並播報給用戶。

 

開發者如何集成

 

語言生成完畢之後,還需要通過語音合成技術將語言轉化爲自然流暢的語音播報給用戶。自此就完成了一個完整的地圖語音交互。如果開發者也希望在自己的應用和硬件中集成地圖語音交互能力,具體該如何操作呢?目前百度地圖開放平臺爲開發者提供了三種集成方式:第一種方式就是低耦合方案用戶可以在地圖和AI開放平臺上分別獲取到地圖和語音SDK和API,這種方式的特點是自由度非常大,可以任意組合,但成本較高。第二種是中耦合的方案,開發者集成語音識別和語音合成的SDK,百度地圖封裝地圖類語義理解和交互能力,提前訓練好地圖機器人,這樣開發者不用再去理解地圖複雜的交互場景了。第三種就是高度耦合的方案,那就是將語音、語義、地圖服務封裝在一起,開發者直接拿到就可以用

 

最後,開放君強烈推薦開發者用第三種高度耦合的集成方案,方便快捷、簡單易用。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章