語音交互只是說話？相比自動駕駛它還在L1級！

作者簡介：李智勇，聲智科技合夥人、副總裁。

2017 年可以看做是智能語音交互的元年，在這一年裏小愛同學、天貓精靈紛紛上市。2018 年裏語音交互的落地突然加速，落地的產品從大公司關注的智能音箱擴展到其它品類，比如電視盒子、鬧鐘、燈、智能馬桶等。那接下來語音交互會如何發展？

▌語音交互的終極目標

語音交互的便利程度正好與人工智能的發展程度成正比，智能程度越高語音交互的等級也就越高，所以其終極形態與人工智能的終極形態類似。

如果拋棄特別誇張的想象來說，那語音交互要能達成《她》或者《黑鏡》裏描述的樣子：

當你輸入數據給它後，它能夠根據輸入數據表現出不同的個性。
在數據的處理上它近乎是全能的，只受個人權限的限制。
如果真的賦予實體，那它可以感知周圍環境並作出與人類似但很多方面會更優秀的反應。

今天的智能音箱和未來相對終極的語音交互方式以及設備相比，其差距要遠大於 X86 電腦和今天 Pad 的差距。

一旦發展成以上這樣的程度，那語音交互就會徹底地打開邊界，而不只是我們使用數據的一種方式，甚至會成爲生活的必須品。我們不會對 iPhone 產生依戀，但語音交互則會。

回顧下《黑鏡》裏描述的場景，可以對此有更好的理解：

女主人公的丈夫去世，過於思念自己丈夫的女主人公通過公開的自己丈夫的數據創建了一個有性格的，屬於自己的語音交互機器人。這個機器人在絕大多數方面表現和女主丈夫一致。女主使用一段時間後，就升級了這服務，爲這語音交互機器人賦予了和自己丈夫一樣的形體。

這看着非常科幻，但實際上一旦語音交互達到上述程度，那這類事情幾乎一定發生。既然我們能接受很宅並願意躲在家裏，那就一定能接受這樣一種非真實、但更完美的電子助手進入心靈的世界。《她》這部電影雖然沒拍，但如果有爲個性化語音交互系統塑形的服務，主人公也一定會接受。

在這裏反倒是互聯網限制了我們的想象力，因爲互聯網更多體現的只是工具的屬性，但實際上語音交互系統所涵蓋的範圍要比互聯網大的多。當前之所以能做的還不多，主要是層級還不夠。

▌語音交互的L1、L2、L3

我們可以這樣定義語音交互的 L1 階段：

能以極高的準確率，在典型的環境下響應用戶的語音輸入。極高的準確率最低應該在 90%+。這時承載語音交互的設備主要負責功能性的提示與反饋（燈與屏幕等）。

當前所有與語音相關的公司，事實上都是在達成 L1 的路上。L1 的出口爲語音交互習慣徹底樹立，人們面對每款設備的時候會首先想到用語音操作，而不是遙控器或者屏幕。

在 L1 階段語音交互更像是自動化程度、精準程度更高的搜索，但搜索的範圍擴大了，不單是侷限於已有的數字內容，也擴展到家電、視頻通話等正常搜索不會覆蓋的領域。

我們可以這樣定義 L2 階段：

能以極高的準確率識別出交互的當事人和環境，然後進行個性化的交互。這時承載語音交互的設備通過攝像頭等傳感器能夠實時感知，進行適當移動，初步擬人。

L2 階段體現的是個性化，不再是千人一面。如果 L2 得以達成，那《她》所描述的場景是可以實現的。語音交互可以定製出性格，而這種性格很可能確實滿足某個人的心理期待。

在 L2 階段，語音交互會打破工具的邊界，嘗試走入從來沒被搜索等介入的領域，比如排遣寂寞。現在的各種 App 是按照領域來切分的，而在 L2 階段，所有 App 的邊界會被打破，信息的輸出是按照人來切分的。也就是說不再有 BAT、頭條、美團等，只有張三的語音交互助理，李四的語音交互助理。

我們可以這樣定義 L3 階段：

只要有數據，語音交互系統的能力就可以無邊界擴展（包括個性和能力）。交互設備可以進行擬人化輸出。

L3 階段體現的是後端內容擴展的無邊界特性，不再是有多少智能就有多少人工，以及擬人化輸出。擬人化輸出包括移動、說話的語調、風格、姿態等。

如果 L3 階段得以實現，那《黑鏡》描述的場景是可以實現的。只要有一個人充分的數據描述，就可以立刻模擬這個人，然後賦予他一個真實的身體。

在 L3 階段，語音交互及其載體，將是社會生活、甚至家庭的一部分。

本質上，從 L1 到 L3 體現的是數字化和智能程度不斷加深，同時數字和智能又按照人類的理想形態進行物化的過程。這一過程也是完全顛覆基於手機的移動互聯網的過程。

▌語音交互發展的核心障礙

整個行業迫切需要徹底解決下面的問題：

解決前端聲學適配問題，否則變成每個設備都需要調整，但真正能對其調整的人員很少。
NLP 整合足夠全的內容資源，開發出缺省的 Killer App，因爲產品公司不可能系統地在產品週期內整合所有內容。
落地方式多樣化（包括純軟件、模組的）。語音交互和移動應用的根本不同是需要面對多種多樣的設備，所以其自身的落地形態必須是靈活的。

眼下不同產品公司的訴求差別很大，小公司希望的是 turn-key 的方案，有內容的公司希望的是自己做部分 NLP，偏行業的公司希望的是有帶硬件可貼牌的產品、但自己開發手機 App，諸如此類。

因爲用戶需求的複雜性，落地是一個相對長跑且需要保持靈活的過程，不同產品公司需求的內核是一樣的，但處理大品牌客戶總是需要靈活處理很多細節。這對於創業公司難度不大，但對巨頭會形成難以跨越的障礙。

▌未來三年必然會達成的成績

現在與語音交互相關的公司，核心在做的就是 L1 階段的事。這個階段雖然在人工智能的大趨勢裏面，但本質上智能並沒那麼關鍵，關鍵的是便利以及能輸出的內容。這兩者會推動樹立語音交互這種習慣。

如果要在數量級上進行判斷的話，那三年後可以達成的目標是：

每年有 10 億臺支持語音交互的設備售出。

至少故事機、電視機、電視盒子、汽車前後裝、白色家電、燈、鬧鐘等會加入這種特性。手機、Pad、電腦這些大品類上語音交互的能力則會變成標配，但使用頻次估計需要更長的時間進行提升。在最初，交互頻次會很差（這點在前文已提及），語音交互本身並非一種獨立的交互方式，而是同其背後的內容深度綁定，我們很多的應用實際上是針對手機和鍵盤鼠標操作優化過的。

凡是電子設備都可以用語音來進行交互。

語音交互不會挑設備，同之前的交互相比，它可以更加低廉，理論上只要麥克風並且能聯網就足夠了。相較於給設備加入鍵盤鼠標或者屏幕，這個成本要低很多。這點上做出表率的仍然是亞馬遜，亞馬遜不停地推出新的設備，如微波爐、車載設備等。當然不同設備上語音交互的層次是不同的，有些設備如白色家電，語音交互會限制在一到三輪以內。

在更高一級的視角下，當前的所有努力本質作用就一個：通過便利性樹立語音交互的習慣。但是，習慣背後跟隨的是用戶時間，二者又會爲下面的進一步發展提供試驗田。只有達成了這一目標，從技術到產品再到用戶這一循環纔算真正完成了第一次迭代。

▌結語

語音交互看着太簡單了，不過是說話而已，所以很容易被誤解爲，像說話一樣的交互就是現在語音交互設備所應該能幹的事。其實不是，語音交互的從 L1 到 L3 有可能比自動駕駛從 L1 到 L5 還要漫長。

（本文爲作者獨立觀點）

--【完】--

語音交互只是說話？相比自動駕駛它還在L1級！

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（二）使用kube-vip實現集羣VIP訪問

企業大模型如何成爲自己數據的“百科全書”？

本地SSL證書過期輸入命令在IIS自動生成

.NET週刊【5月第2期 2024-05-12】

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（一）部署K8s

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（三）數據卷掛載NFS（網絡文件系統）

用於多任務CNN的隨機濾波分組，性能超現有基準方法

2097352GB地圖數據，AI技術酷炫渲染，《微軟飛行模擬器》遊戲即將上線

後深度學習時代的一大研究熱點？論因果關係及其構建思路

華爲諾亞方舟開源預訓練模型“哪吒”，4項任務均達到SOTA

LatentFusion：華盛頓大學與英偉達聯合提出6D姿態估計新方法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結