AI前線(2020年3月)

卷首語

作者 | 李冬梅

採訪嘉賓 | Daniel Povey、王育軍

智能語音技術發展至今,如何解決跨設備“自由場景自由說”,一直是擺在智能語音研究者們面前的一道難題。在AICon 2020全球人工智能與機器學習技術大會(上海站)召開前期,InfoQ有幸採訪到了小米首席語音科學家Daniel Povey和小米語音技術負責人王育軍,聽他們分享對智能語音技術發展遇到的瓶頸問題的看法。

智能語音技術面臨的瓶頸

智能語音技術是最早落地的人工智能技術,也是在AI產品中應用最爲廣泛的一項技術。自從深度學習引入到智能語音領域後,這項技術才真正地從不溫不火變爲炙手可熱。深度學習的引入使語音識別文字的準確率從70%多,提升到了近90%,也正因爲如此,各大智能語音產品生產商看到了這背後蘊含的商機,紛紛推出智能語音助手,搶佔市場。

目前,智能語音技術被應用在了很多不同的端上,語音技術是整個語音交互生態中的一環。市場上紛繁複雜的智能語音產品涵蓋了智能手錶、智能音箱、智能機器人、智能手機助手等,例如蘋果的Siri、微軟的 Cortanna、亞馬遜的Echo、小米的小愛同學、華爲 HiAssistant、百度小度等,在這些品類各異的產品背後,智能語音技術都面臨着同樣的一個問題——難以解決跨設備“自由場景自由說”的問題。

在王育軍看來,智能語音技術在語音合成和語音識別方面上都存在着棘手的問題。在語音合成方面,當前面臨的問題是把合成從藝術做成規模化產品:過去語音合成是用一位聲優,錄出盡量多的專業錄音數據,然後訓練聲學模型和聲碼器。目前研究者們需要時間來逐步論證數據採集、使用與標註的方法,使用戶可以聽見自己熟悉的聲音。甚至可以弱化合成和語音編碼,語音降噪的邊界。

在語音識別方面,語音識別的難點從來都沒有變過,仍然是儘量使用戶可以“自由場景自由說”。場景中面臨的挑戰是混響、競爭說話人、極低信噪比等。在說話方式上面臨兒童發音不清楚、口音和方言多語言問題,這些挑戰會長期存在。各方都在呼喚一套可以“兼容”自由場景自由說的產品方案,拉近技術邊界和用戶預期。當然從算法的邏輯上講,無論是迴歸問題還是分類問題,都會面臨“未見”的情況,這是永恆的難點。

解決跨設備“自由場景自由說”是當務之急

王育軍表示,以小米的小愛同學爲例,如果家居設備聯動做得不好,會讓用戶喚醒小愛同學的時候一呼多應,讓人欲言又止,無法自由說。再比如,聲紋技術本來初衷是簡化用戶的語音操作,但隨着聲控設備的增加,每個設備都需要做聲紋註冊,增加了用戶的使用成本。很多家居控制設備是家庭成員共享的,這些設備需要記住每個語音使用成員的偏好,這些問題都需要研發團隊不斷進行優化。

語音識別技術發展至今,已經在工業、醫療、教育、金融等各行業進行了落地,這些擺在開發者面前的問題一時間難以解決,最終導致的問題就是識別準確率無法達到預期。

雖然語音識別產品供應商們紛紛表示其產品的識別準確率達到了95%甚至97%,但針對當下語音識別技術的發展現狀,小米首席語音科學家、語音識別開源工具 Kaldi之父Daniel認爲:

現在業內許多人士認爲,語音識別系統的準確度已經很高了,但實際上這種高精準度僅僅針對的是某些特定的語音類型。現階段,讓機器來識別人們日常交流還是比較困難的,尤其是當周圍環境摻雜着噪聲、音樂且多人同時發聲時。也就是說,我們還需要對現有的語音識別技術進行認真打磨。

可見,如何解決跨設備“自由場景自由說”問題是擺在所有語音開發者面前的一道難題,如果這道難題能在技術上找到破解之法,那就離一下次語音技術突破不遠了。

目錄

生態評論

大疆禁飛、TikTok 禁裝,視野之外的“華爲”們如何出海?

重磅訪談

Kaldi之父Daniel Povey:我爲什麼選擇在小米開發下一代Kaldi?

落地實踐

對話微衆銀行:聯邦學習在金融領域的實踐方法及落地建議

企業機器學習平臺

對話騰訊大數據團隊:自研聯邦學習系統的技術實踐和難點

推薦閱讀

芯片“門外漢”CEO 拿什麼拯救英特爾?

精選論文導讀

阿里達摩院自動駕駛新突破,實現 3D 物體檢測精度與速度兼得 | CVPR 2020 論文解讀

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章