智能語音技術助力,推進人機交互新時代


過去的70年,人機交互形式不斷進化,從計算機時代的鍵盤,到智能手機時代的觸摸屏,如今語音交互正在引領人工智能爲主導的下一個人機交互的新時代,它能夠在社交、導航、搜索、機器人等領域大規模應用。

 

起初智能語音備受公衆關注還是由於蘋果Siri的出現。實際上,Siri並按不是手機上出現的第一個智能語音助手,最早出現的語音助手的弊端在於只能聽話,不能說話,這在一定程度上桎梏了他們的發展速度。

 

而當年市場上出現的語音產品,給使用者的普遍的感受是智能化程度不夠高。對於一些關於日常的衣食住行或是相對簡單的問題,這些語音助手基本上都能夠給予相對明確的答覆,但是對於一些稍微複雜的問題,儘管與其交流的時候“雞同鴨講”得挺熱鬧,但通常給出的答案都是模糊兩可或者乾脆打起了太極。

 

在產品應用方面,智能語音最初只能在銀行櫃檯、醫院排號,以及電話呼叫中心這場景中應用。體驗者與產品互動過程中聽到的是充滿機械感的聲音,試問在聽到電話那頭冷冰冰的:“普通話服務請按1...”的時候,你有沒有馬上轉人工服務的衝動?

 

隨着人工智能技術的高速發展,語音技術在語音識別和語義分析上日趨成熟的技術上繼續蓬勃發展,更多能聽懂人類,或者能與人類深刻交流的智能產品將不斷豐富大衆的生活。

 

微軟小冰、Siri等人工智能語音產品爲當今社會提供了很多應用場景,如:查詢實時天氣、播報新聞簡訊、體育賽事、推薦熱門電影、出行導航,還能控制物聯網打開電燈、窗簾和咖啡機......語音智能產品的應用,讓整個人工智能產業擁有了更大的想象空間。

 

如今,我們期待智能語音產品不僅能“說人話”,而且能“更像人”,“懂你”,只是個開始,語音智能最重要的部分,在於情感化的TTS。標貝科技上線的TTS評測系統讓客戶可以專心於合成技術的研發,快速實現高質量的合成系統,爲針對韻律、多音字、數字符號及分詞詞性四個模塊進行客觀測評,結合ABX、MOS評分評測,爲提升語音系統合成效果提供更高效的方案。

 

在昨天(3月22日),微軟(亞洲)互聯網工程院宣佈推出新一代的語音交互技術:全雙工語音交互感官。與既有的單輪或多輪連續語音識別不同,這項新技術可實時預測人類即將說出的內容,實時生成迴應並控制對話節奏,從而使長程語音交互成爲可能。

 

未來,語音智能的發展方向,其實很簡單,就是如何解決語音識別、語義理解、操作執行等存在的問題。

發佈了16 篇原創文章 · 獲贊 1 · 訪問量 7844
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章