阿里全面進軍IoT,語音將是人與IoT最自然的交互方式

阿里妹導讀:近期,2018國際智能科技峯會開幕式暨主論壇在深圳舉行。本次峯會邀請了中國工程院院士高文、院士徐揚生、院士丁文華、圖靈獎獲得者John E.Hopcroft等多位重量嘉賓參會並做主題演講。

阿里巴巴達摩院機器智能技術實驗室語音交互首席科學家鄢志傑受邀在大會做《IoT時代語音交互智能》主題發言,以下爲演講全文。

鄢志傑在大會做主題發言

IoT:阿里巴巴新的主賽道

今天很高興有這個機會能夠來介紹一下我們自己的一些工作。爲什麼在一個人工智能的場合講IoT,第一深圳是IoT產業非常活躍的城市;第二,同樣是在深圳,阿里雲在深圳的雲棲大會上發佈了新的戰略,阿里巴巴將會全面進軍IoT,IoT將成爲阿里繼電商、金融、物流、雲計算之後一條全新的主賽道。前面的像天貓淘寶這樣的電商,像螞蟻這樣的金融,還有像菜鳥的物流和阿里雲的雲計算對阿里集團是什麼地位,那麼今天把IoT提到這麼高的地位上來講,顯然是表達了阿里對IoT的高度重視。

阿里希望做IoT的基礎設施,在五年內,通過雲上的基礎設施連接100億的設備。我們的理解有三點:計算是心臟,AI是大腦,IoT是神經。爲什麼這麼說呢?其實這也很符合阿里,尤其阿里雲一路以來發展的脈絡。阿里雲從做計算、做存儲開始,做傳統的雲計算,一直到近些年不斷的去深入做AI技術,不管是我們計算機視覺的技術,語音交互的技術,NLP的技術,還有基礎的機器學習、運籌決策等基礎技術,如何使AI技術通過IoT神經觸達更多的用戶,產生數據及更大的價值,這就是一路以來非常清晰的發展脈絡。

語音是人最自然的與IoT交互的方式

既然講要連接萬物,萬物互聯,那首先要解決人跟設備怎麼去連接的問題。我作爲一個做語音交互的實踐者,我覺得,非常自信地就可以講說語音就是人最自然的與IoT交互的方式。原因是什麼呢?因爲人與人之間交互也一樣,也是用語音作爲最自然的方式。人和機器,我們也希望能做到這麼自然流暢的交互。語音交互是,即使是你在開着車,手不方便的時候,不看屏幕,不用觸摸屏幕上的任何東西,也能夠跟你的車交互。而且隨着這麼多年技術的發展,確確實實這種交互的體驗已經從一個科幻電影——就像《星球大戰》第一集拍出來的時候,人能跟機器人做語音交換完全是科幻電影——但是拍最新的續集的時候,到今天,這個東西已經完全成爲了一個大衆科技,跟一個機器做語音交互,今天已經是完全很容易實現的一件事情了。

做到這一點背後是技術的進步,得益於我們AI的技術在近幾年長足的發展,不管在感知的層面還是在認知的層面。回到這個當中的語音交互,今天已經完全的是跨過了“能用”的這麼一個基礎的門檻,正在向着“好用”的方向來發展,使得這樣的技術能夠架起一個人機交互到個性化服務的橋樑。

再具體地說,請大家看這張圖,右邊的部分就是我們所有的在互聯網上沉澱的內容和服務,就像我剛剛加入阿里之初覺得也是很讚歎,我們的集團這麼多年來一直在深耕這方面,就像在音樂裏面我們有蝦米音樂,在視頻裏面我們有我們的優酷土豆,導航有高德的地圖和導航,出行上我們有飛豬,購物自然不必講有天貓淘寶,支付有支付寶,更不用說了。

豐富的IoT端:觸達千千萬萬消費者

當我們有了這麼多的互聯網的內容和服務以後,接下來一個重要的問題就是怎麼能夠更多地使得好的內容,好的服務能夠觸達千千萬萬的消費者。它的觸角就是最左邊的IoT的端,無論是最傳統的手機還是像現在的IoT設備,像智能音箱還有我們的智能電視,智聯網汽車,以及機器人等等,我們希望是通過這些端,把我們在互聯網上的內容和服務帶給我們的消費者。中間的橋樑和媒介就是自然的人機交互界面,不管是語音的交互,然後計算機視覺的交互,以及這些東西結合起來的多模態交互等等。我們始終就是在拼這張大圖,研發中間的技術,然後做這麼一個橋樑。

在這張大圖下,天貓精靈的智能音箱,非常漂亮的這麼一款音箱,前不久剛發佈了黑色的小音箱。這個就是阿里集團的人工智能實驗室的作品。去年雙11的時候,也是一天之內賣了一百萬臺,到今天一共賣了累計200萬臺的銷量,通過這個端觸達到我們的用戶。

智聯網汽車,阿里跟國內的汽車製造領域的龍頭上汽集團,一起去投資成立了斑馬網絡,做汽車裏面的智聯網。其中除了地圖以外,很重要的是讓你在開車手握方向盤不方便的時候,還能跟你的車做直接的語音交互。現在走進4S店,同樣的SUV,同樣的價位,它的發動機和變速箱各種參數都是差不多的,但是當你今天走進榮威的4S店,4S店的銷售一定會請你坐上這臺車,然後展示斑馬系統,然後對它用語音說我要看星星,突然之間所有的天窗都會打開,體現出這樣的智能。

除了這些以外,導航、點歌、聽歌,甚至我們發現真正的用戶,很喜歡在車裏邊開車的時候邊玩語音的遊戲,其中成語接龍的遊戲就是一個例子,有些司機和旁邊的副駕一路上就在玩這個東西。我們給一個曾經非常同質化的、一個最大的IoT——汽車,帶來了智能的好玩的這些體驗。同樣的在上汽這個汽車推出以後,越來越多的汽車產業裏面的大企業們相繼加入了這張大圖,包括現在已經公佈的標緻、雪鐵龍跟福特這樣的汽車製造商。

在這張大圖底下,阿里自己推出了自己的OTT電視盒子,這個叫天貓魔盒,像剛纔講的,既然講互聯網內容和服務,天貓大文娛有優酷這麼好的內容,所以需要一個端能夠觸達消費者,其中一個端就是魔盒。魔盒它是一個可以用語音跟盒子進行交互的IoT終端。因爲現在大家知道在家裏看電視的老人小孩很多,怎麼能夠在這種場景下幫助他們來尋找他們想看的東西,這個語音當然是很自然的、很便捷的手段。

除了自己做魔盒以外,阿里也跟行業裏做電視的龍頭一起成立合資公司,一起把我們的內容、服務,我們的語音技術打包,把剛纔的盒子裝到電視機裏面去。就像我們看到的海爾的人工智能電視。從前一代的搖控器的方式到剛剛在上海家博會發布的下一代的海爾-阿里的第五代人工智能電視,通過遠距離的遠場語音交互,免喚醒的方式,還融合識別聲紋,來識別年齡,過濾對小孩子的不良內容等等這些技術,我們逐步地在家庭娛樂的環境裏應用智能語音交互。

不僅限於此,語音交互智能還逐漸地也在向公共服務領域在發展。在去年底的時候,馬老師和上海地鐵的董事長一起參觀了語音售票的概念機。通常在地鐵站裏面用售票機的就是外地的遊客、出差的人士,他們對上海不熟,只知道自己要去哪,不知道要坐哪一條線、在哪一站換乘、在哪一站下。通常在原來就得通過高德,比如說把路線先查好,再去買票。有了這個語音售票機以後,後面對接的就是互聯網的數據,高德的數據,你只要對着售票機說出你想要去的地方,所有的路徑規劃、怎麼換乘、哪站下、需要多長時間、需要多少錢買到這張票,一目瞭然,然後通過支付寶的方式,就可以實現整個的購票的過程。

但說起來這個體驗好像很簡單,本來就應該是這樣的,但是在技術上同樣需要解決在地鐵站那麼嘈雜的公共場合下怎麼能夠解決一個遠距離的語音交互,而且要保持高精度的問題。我們做了像大屏上面綠色的條狀的東西,就是一個很大的麥克風陣列。中間這個黑色的東西就是一個光學的攝像頭。其實是做了一個多模態的語音交互的這麼一個技術,使得在特別嘈雜的環境下,還能夠在一定距離以外跟機器做一個遠距離的隔空的語音的交互。相信不久的將來這種公共場所的服務機器,尤其做這樣的交互的一個服務機器會越來越多的出現在我們的生活當中。

技術創造商業

阿里雲很嚴肅地在佈局技術問題,雖然阿里是一家在商業上非常成功的公司,但同時我們希望在技術上去自主掌握在交互這個鏈條上的核心技術,並且能夠隨着產品的創新持續地去迭代、去進步。其中一個例子就是說,我們從這個麥克風本身的硬件,這種傳感器的硬件技術出發,到麥克風組合起來設計爲一個麥克風陣列,到陣列的信號處理,全鏈路地從最源頭開始就找世界頂尖的專家來做這樣的技術。

例如說在聲學設計方面,大家可能看到過報道,我們就是從做電話通訊的企業去尋找了這樣的專家,來和我們做語音技術的人坐到一起,去打造全鏈路的最好的交互的體驗。同時在大家更熟知的語音識別、語音合成、聲紋這類技術更不用說了。我們還在阿里雲上打造雲+端的、工業級的語音的交互系統,跟它相應的定製平臺,使得我們可以以這套平臺性的東西去很快地適配到一個具體的應用的領域。

但我們不是做那種完全高高在上的研究,怎麼能把這些好的研究作爲一個可以落地的產品,真正產生它的價值,也是我們特別努力去思考的。在阿里,一個團隊中常常會出現說既有偏向於研究的人,又有偏向於落地的人,又有偏向於工程人。當這些人放到一個團隊一起做這件事情的時候,它產生的這個化學反應跟它的產品的厚度就會不一樣的。

剛纔能感受到就是我們從傳感器,一直到人工智能芯片方面都開始做自有的研發,無論是通過自研或併購的方式,而且阿里是很嚴肅的在做一個端上的操作系統叫AliOS,我一直把它評價爲是中國最嚴肅的移動操作系統。還有像剛纔上汽跟海爾的例子,就是說怎麼能跟行業裏的那些龍頭的合作伙伴一起去開拓IoT。就像剛纔講的,我們已經有比較強的雲端的佈局了,怎麼能通過這些基礎設施能夠打通,能夠最後成爲商業上成功的一個產品,這些方面的市場上面的商業上的佈局,想的會比較多。最後當你做一個具體的產品的時候,你仍然要考慮一些非技術之外的因素,像市場的容量,本身的成本,一直到它的定價等等,當你有全鏈路的能力之後,有這種機會去打磨這些東西,使得達到一個效益最大化。

IoT時代的爭論思考

當前IoT的融入生活也總是遇到這樣那樣的一些爭論。例如說我舉個例子,在家居環境下,很多爭論說我們到底應該有一箇中心化的智能設備還是一個去中心化的、分佈式的智能終端?或者說我們應該在現階段就特別明確地強調它是互聯網的新入口,還是先從滿足大家的指令控制、任務完成型的這種體驗入手。或者說做一家商業公司,我們是應該自己做硬件還是採取這種平臺型的方式,去跟硬件的龍頭企業一起合作做這件事情等。

有一些事情阿里是一定會着力去做的,其實就像是技術本身,剛纔講到的所有這些技術的模塊,我們都希望把它做精做深,然後通過某種方式把技術共享出來,讓全社會可以使用。在IoT的領域,阿里去做低成本、易複製的IoT的智能化的整體的方案。包括硬件模組和軟件。然後當你用上這個模塊,接入你的設備以後,很容易就能享有剛纔我們講到的互聯網上的那麼多的服務的內容,然後統統通過自然交互的模式作爲橋樑和紐帶。

我們會去打造一些自己標杆的硬件,但是這個是手段,真正目的還是爲社會建造基礎開放的平臺,使各種各樣的設備能夠很容易接入這個平臺,達到五年100億端的目標和願景。

好的,今天我的分享就到這裏,謝謝大家!

關於新一代人工智能聯盟:

新一代人工智能產業技術創新戰略聯盟(AITISA,簡稱聯盟),聯盟在中國科技部指導下,聯同科技巨頭、知名學府及創業公司發起成立。聯盟由潘雲鶴院士擔任名譽理事長和專家委員會主任,高文院士任聯盟理事長,北京大學計算機科學技術系主任黃鐵軍教授擔任祕書長。

中國科學院李未院士、中國工程院柴天佑院士、金東寒院士、李伯虎院士、劉玠院士、吳澄院士、鄭南寧院士爲聯盟專家委員會副主任。

阿里巴巴是該聯盟的副理事單位,阿里達摩院機器智能實驗室副主任華先勝爲組織副理事。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章