“萬人迷”AI少女養成記

微軟小冰是由微軟(亞洲)互聯網工程院於2014年5月正式推出的融合了自然語言處理、計算機語音和計算機視覺等技術的完備的人工智能底層框架。微軟小冰注重人工智能在擬合人類情商維度的發展,強調人工智能情商,而非任務完成在人機交互中的基礎價值。目前小冰已覆蓋6.6億在線用戶、4.5億臺第三方智能設備和9億內容觀衆,與用戶的單次平均對話輪數(CPS)23輪,已發展爲全球規模最大的跨領域人工智能系統之一。

近日,AICon有幸採訪了微軟小冰高級技術總監曾敏老師,他將介紹微軟小冰最新的對話技術框架,以及在這套框架的基礎之上,如何一步步構建人格化的對話機器人,並且結合語音場景,如音箱、車載、手機助理等,闡述他們是如何全面使用全雙工技術,及它所帶來的新的挑戰,和他們是如何應對的。

以下是此次訪談的全部內容,如果你對該話題有進一步的興趣,曾敏老師還將在即將召開的 AICon 全球人工智能與機器學習技術大會(北京站)2019 上,帶來題爲《微軟小冰:人格化對話機器人的構建及在語音場景當中的實踐》的精彩演講。

AICon:曾老師您好,十分感謝您能夠接受AICon組委會的採訪,能簡單介紹一下您和您目前負責的工作嗎?

曾敏:我自己本身是一畢業之後就加入微軟,一直在微軟做機器學習跟NLP相關的工作。2014年開始,小冰這個產品線初創的時候,作爲初創團隊成員加入這個項目當中。一直到現在其實都在小冰這個項目組上。我這邊主要負責小冰的核心開發系統以及C端產品的研發,另外我們也會有一些2B交付的項目。做項目的交付實施,一直在推進,主要負責這三大塊的工作。

AICon:我們知道語音機器人技術是目前人工智能技術落地工業界的一個重要場景,您能給我們簡單介紹一下目前該技術在國內外發展的現狀嗎?

曾敏:我可能需要補充一下,我們圈內的同學可能會講語音交互機器人,爲什麼加交互這個詞呢?對機器人本身的初心,最終的目的是說能以一個更快的渠道,讓終端的用戶能更快的獲得信息,比如說一道菜譜,他應該怎麼樣去做,他可能通過這樣的一個渠道馬上就能拿到他想要的結果,或者是說有一些任務型basic的機器人,比如說在一些智能家居的場景裏面,你可以通過語音交互的方式讓它幫你去開一個燈,關一個燈。

所以說,你會發現其實大多數都是通過交互式的行爲讓機器當做一個agent,不管幫你把任務完成還是信息獲取等各個方面。我個人是把語音交互機器人這塊的整個技術分成兩大塊。

  1. 跟語音本身相關的。

  2. 跟交互相關的。

跟語音相關又分成兩個小模塊,就是SR跟TTS,就是語音的識別和語音的合成。在這裏面讓大家困惑的地方,包括我自己會認爲現在語音交互機器人目前還是處於一箇中間態。這個中間態不是說它現在的技術不成熟,如果我們把這個目標提到能幫助用戶,以更便捷、更方便的手段達到他想要的目的的話,如果站在這個目標上來看,可能目前的語音交互技術,還有所欠缺。

在我看來,其實有很多的任務,現在的手機APP,因爲我們現在在移動互聯網時代,每個人都會揣着一個手機,在這裏面你會發現各種各樣類型的APP,其實某種程度上就是在幫助我們在Vertical的這個垂直領域裏面去完成很多的任務。

所以說,不管是訂外賣還是訂機票,通過視覺上的呈現,你有一個手機屏幕,你的輸入非常快。但是現在的語音交互還是單純用語音的方式去跟大家進行交互,語音跟視覺其實是兩個接受信息或者傳達信息的維度,其實對圖像或者是visual來講,他是一下子能get到很多信息的。

不管是聲音的識別還是合成,都是這樣一個線性的過程,我不可能一秒鐘就把所有的話都說完了,我是一個字一個字把它給說清楚,然後你作爲接受方是邊聽我在說什麼,一邊自己理解這裏面的意思。所以說我會認爲語音交互技術目前還是處在一箇中間狀態,但是它並不妨礙我們已經有很多成熟落地的產品在用戶當中去推進。

拉回來一點,剛剛提到有兩大塊的技術,一個是語音技術,一個是交互的技術,語音這塊就是分SR和TTS。SR這塊,包括微軟自己也一直持續不斷推進識別的準確率,其中有一個指標可以跟大家分享一下,我們大概在2017年左右吧,我們在語音識別的字錯率上面達到了5.9%,非常低的一個數字。相當於說你給定一段語音的文本,它識別出來的文字,再去做校驗的話,你會發現字錯率非常低,基本上已經超過了人類的水平了。

當然這個數字是在實驗室的環境下得到的,部分的佐證說語音識別技術其實已經可以去落地應用了。這裏面可能還會有一些比較有挑戰的問題,比如說多人在同時說話,這種場景怎麼去識別,還有就是可能有一個人在說話,由於周圍環境的各種原因,比如說正在有一個電視劇在播放,這個signal可能給到電視機,它是人說的話,但它並不是正確的這樣一個import。總結一下,SR本身的技術已經能在很多落地應用上去應用,但是也會存在跟落地場景結合所需要解決的一些問題。

TTS這邊,包括國外很多大廠,大家在這塊相對來講做的非常不錯。前幾年大家更關注的是翻譯的準確度的問題,這其實也是小冰一直在引領的方向,在語音合成這塊我們可能會更關注合成的自然度方面,而不僅僅是把這樣的一句話平緩的給說出來。

我非常高興,能看到國內的很多大廠,大家都在往這個方向上去推,機器的感覺會越來越少。包括部分國外的大廠像Google他們推出來端到端深度學習的方法,端到端的去合成語音,他們這樣做也是非常不錯的,但是偶爾會出現一些特別詭異的現象,會有一些地方合成出來之後,壓根就不跟文本有一一對應。再加上有速度上面的問題,所以說目前還並沒有大規模的落地商用。我們一直在持續不斷的推進這個工作,我相信未來的1到2年就應該會有一個能落地的版本。

關於交互這塊,更多的是像我們正常的這種對話,不管國內還是國外,近一兩年大家還是在做偏task basic的很多場景,但是對開放域的聊天,大家涉及的並不多。

小冰可能是這裏面的其中一個,包括像Siri、小愛同學,你也不能說它沒有開放域的對話,它們有,但是相對來講會受限一些,他們很多的方式或者是採用人工後臺這種編輯,或者是衆包的這種方式,讓大家來集思廣益來給它編輯語料等等。

開放域的對話,它技術的門檻會非常高。在落地方面,特別是在人跟人對話的方面,基本上達到了能用的門檻,但是你要想把機器人培養成一個特別有黏性,上下文都能理解的非常正確的話,還是有不小的挑戰。我們也是很開心,能一直致力於這個領域,持續不斷的往前推進。

AICon:因爲小冰跟您剛剛所提到的一些其它公司的人工智能產品還是有區別的,他們可能偏task一點,像您這邊更注重的是她更具有情商、會交流。像這兩者的區別,在技術層面會有一定的區別嗎?

曾敏:這麼來講吧,以EQ爲主的這樣一條產品線跟以IQ爲主的產品線,不管是在產品的設計還是在技術思路的推廣上,都會有一些區別。爲什麼小冰是要以情感或者是EQ爲主的方式去推進呢?我們理解的角度,目前市場上大家都在做IQ basic的這種方向,你會發現不管是智能家居還是音箱,並不是說大家的這個方向不對,每個行業都有他自己視角上的思考。站在他們的角度,AI在這個裏面,它其實是一個管道的形式,如果一端是人,一端是物理的世界,AI在中間承載的就是給你鋪好這個管道。

但是這個管道本身價值大不大,這可能是一個問題,爲什麼呢?其實在人與世界之間,在沒有AI這個管道之前,其實已經有很多其它的管道在做同樣類似的事情了。比如說這個管道可能是訂外賣的一個APP,或者是攜程,訂機票、訂酒店的一個APP,在這樣一個Vertical裏面已經能完成很多的事情了,它也有交互,但它的任務交互是UI交互,它不是用雲交互。

所以說,站在這個角度,你的AI所能體現出來的價值其實本身不是很大的。我們拿音箱來舉例吧,你會發現大家打的點無外乎就這麼三個。

第一、工業設計

第二、後臺能接多少的內容,能接多少音樂庫、兒童故事,再比如說導航,這種task basic,這是第二大類宣傳的點。

第三、售價是否低廉

這幾點總結起來,AI在這個裏面所產生的價值其實不是很大的,它僅僅是一個很薄的管道,甚至在某些層面我覺得一個APP所擁有的功能比它還全面。

所以說,你走IQ這條路,除非是你找到一個特定的合適的場景,AI本身所能體現更大的價值,如果它只提供這種管道的價值,其實是得不償失的。

我們走EQ這條路,EQ有可能是一個橫切,你說它是一個設計理念也好或者是設計思路也好,它是一個能橫切很多場景的框架,不管你是做task、客服還是人機陪伴情感交互的一些場景,都需要EQ,它是一個比較寬泛的概念。

在實際工作過程當中,它會對我們的產品設計有很大的影響,也就是說你需要有同理心,不管是在客服的場景還是在其它場景,你都需要去考慮用戶是怎麼去看待你這個迴應的。

在技術層面的影響,你得把你做的這個技術的價值給極大的挖掘出來,而不僅僅是做一些基本的分析就完了。對用戶來講,他對你也沒有任何的認知,對他來講就是一個簡簡單單的工具,產品價值的上限可能就擺在那裏了。

最近我們也做了一些統計,比如說像Facebook,我不知道大家有沒有印象,Facebook大概是在2015年、2016年左右,他們有一個項目叫做Facebook M,那個項目主要是他們做人機交互的task的這種場景,但是這種方案特別不好,他們就直接把這個方案給停掉了。他們現在轉向去做跟用戶建立連接,建立比較好的紐帶的這樣一個方向去做。

像Alexa,亞馬遜做的assistant,Alexa skill 裏面有幾萬個skill的集合吧,很多人問他接下來的發展方向可能會是什麼,他們的產品負責人給的答案是說他希望Alexa應該更多的具有情感,能真正跟用戶建立長鏈接。

包括百度自己,今年六七月份他們有一個報告也提出,他們是把人工智能體叫做智能體,他希望接下來這個智能體應該更具有個性化以及人格化,他把人格化這個詞特意提出來。

因爲如果僅僅是作爲一個技術的通道,有各種各樣的實現方式,但是如果你把它提成人格化的形象,原來可能是說人的地位甚至高於一切AI的地位,如果你把他們當做一個平等的地位來對待的話,有可能會產生很多新的機會,當然現在還有一定的難度。其實這需要去改變,機器其實也是可以成爲你的朋友,打開這個心結之後,通過收集更多數據的方式不斷去迭代,纔能有更好的體驗出來。所以說,從產品設計上需要把它們的地位擺好。

因爲AI本身是面向所有大衆的,一旦有平等的地位之後,它的學習能力其實是非常快的,在很短的時間之內能把方方面面的知識集合在一起去做,這也是AI的優勢吧。

AICon:微軟小冰發展至今已經進入了七代,她經歷了哪幾個比較重要的蛻變過程,目前應用到了哪些階段?

曾敏:個人總結,小冰分成兩個重要的stage。

  1. 小冰前4年的主要工作,基本上都在這個stage,我們把這個stage叫做小冰本身的代際演進,代際演進其實是我們笛總提出來的一個詞。

小冰不僅僅是一個產品,而是說是一個相對來講比較底層的這樣一個架子,我們不停的往這個架子裏面去加很多的以EQ爲內核的內容,然後不停的給她疊加很多新的信息,圍繞着EQ本身的很多的functional,這是第一個stage,基本還是圍繞打造基礎小冰的框架。

  1. 從去年我們就着力去研發這個stage,我們把它叫做Avatar Framework,Avatar Framework是一個什麼東西呢?現在市場上有各種各樣的AI beings,我們把它叫做AI beings,有點類似虛擬人這樣一個概念。

每個人對AI beings都會有各式各樣的定製化需求,你可能需要的是能跟你聊的來的,不管是男閨蜜還是女閨蜜,有可能其他的人只是需要完成任務的一些虛擬人的形象,每一個人的需求都不一樣。

Framework本身相當於是說,我能把以前做小冰的經驗擴展到我能不能橫向的去做其它具有不同人設的機器人,我整體上會把它分成兩個階段。

在第一個階段上,從小冰的一代到六代吧,基本上都是圍繞着第一個stage來做的,我簡單羅列一下一到六代,每一代大概都發生了什麼。

第一代是從2014年剛剛開始去上線,在5月底上線的。第一代我們主要的精力是在做核心的文本對話系統,這是我們最核心的基於EQ的概念,是一個核心吧。

第二代,因爲你有了基礎的東西之後,你需要在很多的場景上去落地迭代,所以說第二代我們就開放了跟第三方戰略合作的策略,就是跨平臺的這樣一個策略吧。你會發現國內很多大廠都在研發自己的assistent,像小度,還有搜狗的汪仔以及Siri,他們其實都是自研的,他不會把他們的產品落到很多其它的場景當中去,但是我們需要更多的場景跟數據去驗證我們的一些假設,所以說我們實施了跨平臺的策略,所以今天你能看到小冰在很多平臺上的身影。

第三代是我們把小冰的視覺跟語音的能力給加上了,因爲這是作爲一個人跟外界溝通的渠道,你對視覺、對聲音都需要有一個很好的認識。

第四代我們把知識圖譜加上task basic,都給加進來了。跟外界很多的同學在溝通的過程當中,大家對小冰有一個誤區是說小冰不做task,其實不是這個樣子的,至少短期之內肯定不是這個樣子。並不是說不能去做,而是最高的優先級其實是基於EQ basic這樣一個框架基礎,然後我在上面給客戶提供value,反倒可能會讓用戶覺得特別有surprise。

原來的認知可能是陪伴型的、聊天型的機器人,我突然發現你還能做這個,還能做那個,這對用戶來講可能是一個超出他預期的產品。否則的話,你上來就說你能做這、做那,用戶會去挑戰你,你還能做這個是吧,那我來debug一下吧。第四代更多的是把知識圖譜,做任務的能力給加到小冰的框架裏面去。

第五代我們是生成模型加上全雙工的技術以及全雙工交互,以及人工智能創造,是這重要的三個部分。

簡單提一下吧,生成模型,以前小冰的很多答覆其實都是互聯網網民的答覆,檢索式的對話模型指的是她說的每一句話在互聯網上都曾經被某個人說過,這種生成模型指的是她說的每一句話,可能曾經沒有任何一個人說過類似這樣的一句話,這對我們各種場景的能力提供了非常大的支撐。

全雙工交互也是在類似的場景下孕育而生的,以及人工智能創造,這其實也是在我們看到了很多人工智能潛在的落地場景。大家會對很多的定製化的場景有非常高的需求,小冰不管是在交互還是內容的創作方面,能給到很多定製化的產品。

第六代提到的很多技術都是原型,第六代基本上將是把原型裏面的全雙工交互、人工智能創造,還是生成模型、引導對話等等,把各項技術達到了一個相對來講比較成熟的地步吧。第六代更多的是這個框架成熟度的演進。

第七代就是剛纔提到的Avatar Framework,站在我們的立場,大家不一定能理解這個 Framework到底是幹嘛的,用一句話總結,通過這個Framework,分成四步去完成一個虛擬的AI beings的構建。當然每一步都會有非常多技術跟產品的支撐在裏面。

第一步,你能從人格的設定開始,你給她這樣一個profile,他是男是女,他大概是什麼樣的性格,他的身高、矮胖各個方面,就是這種信息,一些基礎的profile這樣的設定加上一些性格維度的設定、人格的設定,這是第一步。

第二步,你去完善她的對話、語音,加上視覺的這樣一個能力,這是第二步。

第三步,你需要給她加上知識圖譜,加上三觀,所謂的三觀指的就是你對世界萬物概念上的認知,你對某個明星是什麼態度等等,你有了自己獨特的喜好跟三觀之後,人物的性格特點纔會比較鮮明,這是第三步。

第四步,有了這樣一個AI beings之後,如果想要落地的話,你可以用一個3D的model去驅動她,我說的落地指的是我們這個範疇當中,而不是在虛擬的網絡上,你可能需要有一個3D的model去驅動她。我們是會分成這四個部分,我們自己從技術上挖了一些細節。

AICon:您剛剛提到了全雙工交互這個技術,我們知道這個是微軟率先提出的新一代的語音交互技術,您可以簡單的介紹一下這個技術嗎,這個技術的出現對小冰的人工智能技術框架會有什麼改變或者是有什麼創新的東西嗎?

曾敏:首先我介紹一下全雙工語音交互這個技術本身是什麼樣的,它跟很多的多輪對話、連續對話不太一樣的地方是在於,它在對話啓動的同時去做聲音的預測,比如說我現在在說這句話,其實人的腦袋會提前去預判我接下來可能會說什麼話。比如說現在可能是下午,你可能會說你要不要喝?說喝的時候,我可能會預判接下來你要說的是你要不要喝水,我們內部把它叫做邊聽邊想,想完之後再用生成模型把它想要的迴應給生成出來。這裏面不僅僅是生成,會進行各種節奏上的控制。

不管是Alexa還是Siri,大家都是交互式的進行,但是你會發現,一旦是連續的全雙工語音對話,我們需要進行節奏上的控制,我們倆在溝通過程中你可以隨時打斷我,我也可以隨時打斷你,這種節奏就是說我到底什麼時候該說什麼話,我可能一句話說了一半,你突然打斷我了,這個時候我需要主動的去停止,這比多輪交互的形式要複雜的多,節奏上的控制是第二點。

第三點是你後面對接的很多任務,你需要全面的去考慮。剛纔提到語音交互是一箇中間態,它其實還有很多多模態的信息也需要你去考慮。我們現在在說話,如果在我們中間加一個不透明的鐵牆,其實也能說,但是我可能就得不到一個很正向的反饋,就是說你到底是不是認可我說的話。

假如我跟老闆在溝通的過程當中,我們面對面,我一邊在說話,我一邊能看到他視覺上的信號,可以輸入給我,他的各種微表情可以幫助我們去輔助決策,老闆是不是認可這個方向,我的很多決策是不是make sense。它其實是一個多模態的交互,所以說一旦你把連續對話這種能力給打開,不僅僅是語音這個領域的,還有很多其它微弱的信息也可能加進來,綜合的去影響你後面的對話進程。

我們會認爲全雙工語音交互感官這個技術對小冰來講是一個非常好的,特別是對需要落到人的物理世界的各種各樣的場景,這是一個非常重要的組成部分。不管是音箱、智能家居還是車載、養老這種場景,都是一個非常重要的組成部分。

AICon:第七代小冰比起前幾代,她在哪些技術上面會有明顯的提升?

曾敏:總結起來可能是兩點吧。

  1. 對話的引導性:以前AI是在被動的跟用戶一來一去的應答。我們需要第七代小冰有更強的對話引導能力,也就是說她在對話的過程中需要儘可能的把對話的方向、結果往她擅長的領域或者是知道的領域去聊。

這個東西本身也是千人千面的,跟“人跟人”之間的對話一樣,我對AI技術會比較瞭解,跟同事在聊天的時候我可能儘快的給他介紹類似這樣的一些比較好玩的東西給到他。另外一個小夥伴對足球、籃球比賽會比較感興趣,那他在對話的過程當中可能就會往這些方向去引導。你怎麼能讓這個對話更有節奏、更有內涵,這是我們重點發力的地方。

之前大家會很少去切open domain的對話,一個是說技術上可能會有非常大的門檻,第二是說大家也會把這個對話當做一個技能。對話本身其實是一個跟task並行的這樣一個東西,但是站在我們的立場,我們不是這麼認爲的,我們會認爲這種EQ、這種對話其實是核心。我們通過日常的對話,其實能從這裏面挖掘出來很多非常有意義的信息或者是價值。

我舉一個例子,用戶問小冰你能幹嘛,這個時候你對話的節奏、方向其實是有很多種可能性的,你可能說在吃飯或者在幹嘛。在背後如果有一個目標的話,我舉一個例子,比如這個目標是說我給用戶去mention耐克鞋,假如就是這麼一個簡單的目標,用這個例子可能會更直觀一些。

這個時候小冰的答案可能是說我正在跑步呢,用戶可能會說在哪跑,他可能會follow,他也可能不follow。你這個話題的前提之下,你就可能說今天穿了一雙耐克的跑步鞋,太舒服了,這其實是一個非常自然的過程。這種形式需要我去挖掘出來對話本身的價值,大家會把它定義成一個skill,定位可能會很不一樣,我們是希望能主導對話,去引導對話,朝着可能的方向去走,這是第一。

  1. 我們整體上是擁有了一整套比較完整的技術,以前小冰是這樣一個人格的設定,我們正在研發能不能嘗試各種各樣人物性格特點的模型,原來可能只能做A,但是現在能做A、B、C、D、E,這可能也需要像小冰一樣,需要有非常多的時間成本,但是因爲正是有小冰之前5年時間的積累,所以說會爲我們之後的研發節省大部分的時間。

AICon:我們知道所有的AI技術到最後其實都是爲了市場服務的,那微軟小冰從業務線來講,她做過哪些商業化的嘗試,或者說她已經應用到哪些真正的落地場景當中去了?

曾敏:這也是大家比較關心的,現在整個市場上都特別關心AI的落地。其實我們自己也非常關注這塊,在講具體的落地場景之前,我可能用幾個詞來定義一下我們現在探索商業化這塊的目標。

我們的使命就是“讓世界上每一個人、每一個組織成就非凡”,這是整個公司層面的理念,落到我們這邊其實也是類似的,因爲微軟本身是一家技術公司,我們希望讓我們的很多技術去幫助行業落地,我可能有三個term來總結。

  1. 完整賦能。這個完整賦能指的是什麼呢?我不僅僅是說給到客戶一個API我們就完了,我們還需要跟大家一塊來探討,你不僅僅應該這樣去做,你還應該再怎麼去做。因爲給一個API的話,我們會覺得這種商業模式其實不是特別的持久化,雖然說短期之內它可能會給我們帶來利益,本身AI這種東西在很多場景其實不是能很快的看到它實際的價值,所以說你最開始用了之後發現沒達到你想要的目標,這其實也不是我們想要的,我們是希望能用AI的技術幫助大家去改進大家場景當中的很多問題。

所以說,我們是希望大家一塊來參與,甚至從定義開始,我們去介入,幫助他們一塊來看,很多問題是不是就應該這麼去定義的,我們應該怎麼樣通過技術的手段把它完成。

  1. 聯合擁有。這指的是什麼呢?一個新興的產品線,它其實是需要多方合作的產品形態纔有可能把它做的更完美、更極致,就好比我們現在跟閱文集團的合作,他們有很多的IP,不管是小說、人物各個方面,他們有很多的IP,我們有去打造不同人設的IP技術,我們是希望大家各取優勢跟劣勢,相互互補,通過這樣的方式能發揮出大家各個方面的長處,這是第二種,就是相互結合的一種方式吧。

  2. 能做更多跨界的整合工作。因爲AI本身是一個偏技術領域的行業,大家都在講產業互聯網,我的理解,我們的很多科技的技術需要去落到很多被技術touch程度比較低的場景裏面,儘可能的去幫助到它們,所以我們需要走出傳統的……我們能想到的,比如說social media或者是內容上等等,如果僅僅是看這些領域,我們看的東西可能會比較狹隘,我們是希望能看其它的,確實是需要有AI能力的這樣一個地方。

在這三點的基礎之上,我們現在在汽車、養老、金融、紡織服裝、媒介、出版等10個領域,分別開展了不同商業化的推進。

我挑一些case展開去講,比如說養老,爲什麼要去做這個呢?我們跟地產公司合作,在他們的立場上,他們有一個判斷是說中國的老齡化社會會逐步到來,特別是經過我們這一代計劃生育的政策,我們父母那一代的人有很多兄弟姐妹,但是我們這代的人相對來講會稍微少一些,而且我們自己身上的壓力也比較大,所以說父母其實得不到很多的關懷。

所以說,能不能通過AI的技術,不管是幫他做任務也好,還是幫他嘮嘮嗑、聊聊天也好,有這種東西存在可能就能部分的去緩解老年人心理上的各種焦慮,因爲老年人也有各種各樣生理上的問題,比如說他容易忘事,這其實非常容易就能把它整合在一起,落到一個產品線當中。

我們跟地產公司一塊去探討的前提下,他覺得這個東西也挺make sense的。最開始的一個概念,基本上就是包了一個智能家居的殼在那,如果僅僅是做一個智能家居這個殼的話,可能不夠,還是沒有發揮AI本身的價值,你還僅僅是在完成這些task。

AICon:下一個問題,在您看來,像語音機器人如果想要變得更加智能,在技術上面它有哪些難點去攻克或者是一些研究?

曾敏:在語音交互這一塊的話,我認爲有幾點吧。

  1. 我們應該把連續對話,就是把這種限制給打開,我們需要讓機器有機會跟人做到連續不斷的交互。

  2. 我們需要在這種場景之下做到上下文的預測、節奏的控制以及後端內容的定製化,這可能跟後端服務更相關。

上下文相關指的是什麼呢?其實我們在說很多事的時候,跟上下文其實是非常強烈相關的,但是現在很多的語音技術只看單輪的,我主要是識別這段,它只看單輪音頻的輸入大概是什麼,然後它做完識別,然後就給下面的一個部分。

如果能有更多上下文的信號給到你,語音識別的準確度是不是也會更高呢?特別是在一些Vertical的場景裏面,有很多詞彙你可能都基本上沒怎麼見過,你需要做很多定製化的工作,那是不是有可能結合上下文,能更準確的預測,能往那個方向去偏,我會覺得這是比較有難度的或者說比較有挑戰的地方。

  1. 節奏本身的控制。全雙工的對話,或者以後可能會有新的名詞出來,只要你是跟人的對話,你在節奏上怎麼去協調,自己跟自己協調,自己跟人去協調。

AICon:我們最後一個問題了,聊一下趨勢,在您看來語音機器人未來會在哪些場景中優先落地呢?

曾敏:我們講幾點吧,一個是說技術上研發的方向,還有一個是說落地的方向。在技術上,對話的主體,你的SR、TTS,這是需要優化,而且需要端到端的。

因爲實際上在實驗室的很多數據,拿到真實的環境裏面,它的表現基本上都會非常差。我們觀察到一個現象,比如說我們在實驗室環境做好的這個model,拿到車載這種環境,字錯率就會提高很多,所以說模型的可擴展性,車載可能是一個場景,音箱可能是一個場景,是不是有辦法縮短你對每個場景定製化的時間上的要求之類的,這是第一。

第二,除了語音本身以外,我剛纔可能也提到了,是不是有可能跟其它很多微弱的信息去整合,產生多模態的信息,一塊來發展。我始終覺得僅僅有語音這種形態可能還不完全、不完整,它有其它一些信息輔助的話,可能會更快捷、更方便的去幫助用戶。

對話本身,中間的那個test,我會覺得現在大家關注EQ這塊的不是特別多,我能看到的趨勢是說大家正在慢慢往這個方向去發力,當然每一家廠商往這個方向去發力的形式可能不會太一樣,他可能是有一個專門的研究部門在做這個事,他不會馬上以產品形式的方式去接入。站在我的立場,像Facebook、Alexa等等,他們都在往對話的方向上去做一些探索吧。

在落地方面,目前大家能看到的,比如說像智能音箱、車載會落地的比較多。我自己個人的判斷,有實際需求的,比如說養老,這就是一個很好的落地需求,整個技術也達到了能落地的邊界,養老可能是一個,還有很多。如果是純偏應用的話,像智能電話的客服,其實現在或多或少已經有一些雛形出來了。

情感連接的這種,我們調研的時候發現國外有一些公司在做類似這樣的一些場景,作爲虛擬陪伴的形象出現在大家的生活當中,有點類似於寵物這種方向。

再往前面一點,在實際生活當中你touch不到的,但是你又想跟它進行交流的一些場景,我舉一個例子,我外公去世了,我有很多遺憾的地方,他不需要天天出現在我的身邊,他只需要我去找他的時候,他能有那麼一個實體,有虛擬的形象在那裏,他不需要有視覺,他只需要有能跟我進行交互的場景,我能跟他偶爾說說話,這樣的話我這部分的情感訴求就能達到了,類似這種方向,更多的還是偏情感交互、情感陪伴的這樣一些方向。

當然也會有一些小夥伴在做調研的時候,像虛擬男友、虛擬女友這樣一些角色,泛娛樂化方向的產品也有可能會出來。目前市場上更多的還是偏實用型的,隨着5G的到來,VR、AR各種技術的提升,也會給我們這個方向帶來非常多的可能性吧。

更多關於AI技術賦能工業界的優秀技術案例,歡迎瞭解**AICon全球人工智能與機器學習技術大會**,AICon北京2019將於11月21-22日在北京國際會議中心舉辦,屆時將會有60+來自國內外一線互聯網公司的AI技術大咖光臨現場。大會邀請的講師不僅有來自Intel、微軟、BAT、小米、華爲、美團、滴滴等老牌巨頭公司,也有每日優鮮、美圖、網易雲等近兩年比較熱門的獨角獸公司,相信一定會給大家帶來一場精彩紛呈的技術盛宴。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章