專訪阿里達摩院聶再清:不能讓每個人無差別享受AI,是程序員的恥辱

魚羊 發自 凹非寺
量子位 報道 | 公衆號 QbitAI

如果技術不能讓每個人無差別使用,不能幫助人去適應變化……

這是程序員的恥辱。

這就是阿里達摩院技術大牛、天貓精靈首席科學家、程序員聶再清,在被問及近期熱議話題時的表態。

最近,一則討論引發了兩種認知的割裂。

智能手機給多數人的生活帶來了種種便利,但也有少數人被“落下”——許多老人不會用、不善用智能手機,沒有健康碼,技術的快速鋪開,反而給他們的生活造成了一定困擾。

於是問題來了:在這個科技日新月異的時代,如果有人跟不上技術迭代的節奏,怎麼辦?

有人言辭激烈:科技倒逼人類進步,跟不上發展就要被淘汰,這是時代在懲罰不主動學習的人。

也有人堅決反對:技術的發展,不應該讓每個人能無差別使用嗎?

而阿里達摩院的大神程序員聶再清,就是後者的堅定支持者。

作爲前微軟亞洲研究院首席研究員、如今的阿里天貓精靈首席科學家,聶再清當前正在不斷推進的正是新一代人機交互方式——AI語音交互。

所以在他看來,讓所有人無差別使用最新技術,技術應該幫助人去適應變化,是每一個程序員、工程師再正常不過的使命。

當然,體現到他帶隊的最新技術和產品應用中,聶再清也是這樣做的。

技術應該讓每個人能無差別使用

7月5日,天貓精靈剛好邁過三週年。

對於聶再清而言,過去半年,疫情改變了工作形態,但沒有改變工作目標——一種新的語音模組正在加快衝刺。

每天清晨,他習慣在自家小區400米一圈的院子裏,跑到汗水浸透全身,再回到家中,與各種家用設備改裝的AI實驗儀器爲伴。

而這新一代語音模組的關鍵算法,正是要實現雲端一體化後,讓不同用戶“無差別使用”。

所以在剛過去的618消費季中,雖然天貓精靈孵化的智能家居設備,出現了100個千萬級銷售爆款。

但讓聶再清最開心的一則新聞,則是這樣一則“社會新聞”——在杭州,一位孫女爲自己奶奶打造了無障礙的家。

視頻中,這位70多歲的老人通過智能音箱,語音操控家中的空調、窗簾、電視。

這也是對聶再清團隊持續“無差別實驗”,尤其是特殊疫情環境下堅持的回報。

新冠疫情發生後,聶再清和天貓精靈產品團隊的“無差別實驗”,險些面臨停擺。

首先,天貓精靈自身對新算法的測試流程,過去有大量外包設備廠商和測試員完成,新冠疫情導致2月基本無法復工。

更困難的是,預計要在618成爲新品的掃地機、跑步機、按摩儀、水果榨汁機、集成竈等等智能設備,正處在廠商與天貓精靈智能語音模組對接測試,即將量產的關鍵階段。這些家電普遍運行聲量偏大,對智能語音識別頗有挑戰。

由於疫情影響,人們也在家居環境中更高頻購買和使用這些產品。讓技術的門檻持續降低,讓先進科技能夠覆蓋到更多人羣。

這是天貓精靈三週年的目標之一,也是聶再清整個職業生涯,希望以語音助手作爲一個突破點去實現的“無差別”價值。

因爲語音對話、眼神手勢交流,無疑是更爲自然的交互方式,這就在技術層面,降低了用戶觸達前沿科技的門檻,用更簡單的方式滿足人們的科技需求,讓科技普惠到更多人的生活。

去年,聶再清曾用業餘時間打造了一個“爆款”,阿里反騷擾電話AI“二哈”。

而這半年以來,聶再清團隊則投入精力,針對老人、兒童這樣的弱勢羣體,嘗試進一步擴寬智能語音助手的“基站”覆蓋範圍,降低使用門檻。

比如,天貓精靈上線的方言功能,讓不會說普通話、普通話不標準的老人也能方便地和語音助手交互。甚至還能合成四川話語音,實現與老人的鄉音交流。

一般來說,一個智能產品的推出,往往會選擇先覆蓋最主流、最具購買力的羣體。但這一次,聶再清團隊卻是着重針對老人、兒童的功能進行了優化,背後的考量,與商業價值有關,卻也與商業價值無關。

聶再清認爲,智能音箱,應該是智能網時代的助手,其實是第三代的互聯網。

他打了這樣一個比方,在移動互聯網時代,手機的通信依靠基站,哪個地方有基站覆蓋,信號連上了,這個地方的人就能夠享受到手機的服務。

而對於語音技術來說,能否發揮最大價值,最終也是要看覆蓋多少人羣。

解決覆蓋人羣的問題,就像是在建基站。最終,只有百分百的覆蓋,才能說,智能語音真正成爲了第三代互聯網助手。

音素編碼上的語義理解

單純站在技術的角度,聶再清說,科研的出發點很簡單,就是讓用戶在使用的過程中,感受到的是“人工智能”,而非“人工智障”。

核心需要解決的問題,就是如何讓數字世界裏天貓精靈這樣的語音助手,“聽懂”物理世界裏用戶的需求。

傳統的做法,分爲三個階段:

首先,把語音信號接入,做語音識別,將語音轉化成文本;

然後,對文本進行語義理解

最後,用抽取出關鍵詞,在知識庫裏做實體鏈接。

這樣的方法,其實存在很多問題。比如,一旦語音識別階段出現決策失誤,在後續的流程中就沒有辦法糾正,就會影響到識別的精度。

另外,實體鏈接也是很大的挑戰。因爲實體的名字經常是“反語言模型”的。比如說陳奕迅的《聖誕結》,在正常的語言模型中,就很容易被識別成“聖誕節”。

那麼,能不能不轉成文字,直接根據語音做語義理解呢?

答案是,可以。聶再清介紹,語音語義一體化的關鍵,在於音素

音素,是根據語音的自然屬性劃分出來的最小語音單位,基於人的發音動作來分析,一個動作構成一個音素。

聶再清解釋,比如輸入“liangzhu”這個語音信號,通過聲學模型,就可以計算出一個音素後驗矩陣。在這個時候,模型並不需要馬上判斷“liangzhu”到底是指音樂裏的“梁祝”,還是建築裏的“樑柱”,而是可以在音素後驗的基礎上去做意圖分類、語義分類。

這樣,就避免了一步錯步步錯的情況。

也就是說,基於音素,語義理解、實體鏈接都可以放到一個統一的優化模型中進行優化。

這一成果發表在了ICASSP 2020上。聶再清介紹,實驗表明,該方法在公開數據集上超越了此前的SOTA模型,同時在天貓精靈上線解決了大概30%的語義實體鏈接錯誤。

這就真正讓智能語音助手在“聽懂”人類的道路上更進一步。

語音+眼神,讓交互更自然

而聶再清思考的另一個問題,是如何讓新一代語音助手跟人們之間的交互更自然。

交互方式越自然,學習成本就越低,使用的門檻就越低,越能服務到更多的人。

當帶屏音箱越來越受到市場的認可,視覺技能點的點亮,就給智能語音助手帶來了更多可能性。

比如,多模態喚醒

比起每次都要喊“天貓精靈”這樣的喚醒詞,如果給智能音箱一個眼神,它就能知道你是在跟它對話,那這樣的交互就更符合人們的習慣,更加自然直接。

聶再清介紹,這其中的難點在於,智能音箱需要判斷一段語音到底是不是在跟它進行對話,如果反覆出現誤喚醒,那就太“人工智障”了。

於是,他們採用了視覺 + 聲音 + 全雙工自然對話三管齊下的方式,來對“喚醒”這個動作進行優化。

並且,這三個條件只要有兩項滿足,多模態喚醒就能夠實現。也就是說,即使是在無屏音箱上,這項技術也能讓對話更加自然。

就像這樣:喚醒智能音箱,要求它打開空調後,無需再次喚醒,只要說“調到20度”,語音助手就能結合上下文,判斷出這句指令是對它說的。

雲端一體化,讓每個人都享受同樣智能

從實驗室到落地終端,用戶最終的體驗又是如何保證的呢?

天貓精靈產品部資深專家孫堯介紹說,一方面,是針對特定用戶的樣本測試。

比如,老人可能存在語言能力退化、口音重的問題,就需要定向採集相關的語料和錄音,來提升老年人語音識別的準確性。

另一方面,則是聶再清提到的關鍵詞,雲端一體化

依靠雲端的能力,就可以把硬件端的產品做到更便宜,讓更多人用得起,但在智能體驗上並不會有所損失。

這樣的方式,也降低了AI能力接入硬件的門檻。

去年,天貓精靈就推出了AI語音模組,把實現智能功能的一些設備集成到一個板子上。這樣,電器廠商只要在產品中留出標準接口,就能輕鬆把天貓精靈的AI能力接入到產品中。

就在疫情期間,天貓精靈工程師們還用這樣的AI語音模組打造了一個有趣的“業餘項目”——

給園區裏的電梯接入語音助手。

他們把天貓精靈的智能模組抽出來,業餘時間自己買電路板進行了一番DIY、離線算法優化,以便接入電梯。大概兩週時間,這個方案就上線到了園區電梯裏,喊一聲“我要去XX樓”,電梯就能無接觸式完成操作。

甚至還能更酷。

孫堯介紹了這樣一個新的應用場景:小區接入天貓精靈後,高層住戶只需在家中讓語音助手叫一下電梯,語音助手就能幫你隔空“按”電梯。

這樣換完鞋子出門時,電梯差不多也就到了。

科技的發展,當然會給人們的生活帶來改變。但在這種變化之中,人們的習慣和技術本身也不應該是對立的。

聶再清表示:

我的觀點是,科技發展的目標是讓每個人都能得到幫助。

即使是在改變的過程中,技術也能夠輔助人們適應變化,而不是跟人對立起來,造成所謂的“淘汰”。

做智能助手,遵循的就是這樣的邏輯:用跟人一樣打交道的模式,爲更多人提供前沿科技帶來的便利。

聶再清還打了個比方:

比如你需要招一個私人助手,Ta告訴你你必須要適應我的節奏,那你肯定就不招了。

千人千面的AI

從端到端的口語理解,到多模態的自然交互,聶再清也坦承,從技術的角度上,語音助手的進步空間還很大。

談及語音交互的未來形態,聶再清描繪了這樣一個場景:

身處北京的你有一個智能音箱,當你飛到杭州出差,在另一臺設備上,智能助手依然能一眼就認出你,按照你的習慣調出所有需求。

屆時,終端便只是一個載體,而你的定製語音助手,將如影隨形。

何時能夠實現?

聶再清笑答:5年可以有,3年也是可以期待的。

本文系網易新聞•網易號特色內容激勵計劃簽約賬號【量子位】原創內容,未經賬號授權,禁止隨意轉載。

報名 | 四場直播詳解AI芯片所有知識點

7月8日—7月11日期間,燧原科技資深產品專家和軟件架構師將爲大家分別詳細講解:

  • 高端人工智能訓練芯片的發展趨勢

  • 剖析軟件全棧的技術難點

  • 人工智能訓練芯片在雲計算中所面臨的挑戰和機遇

四場直播將講透所有的芯片知識點,歡迎掃碼報名~~

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態

喜歡就點「在看」吧 !

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章