搜狗 AI 交互技術部總經理陳偉：未來AI語音交互產品將會走向多模態

雲棲號資訊：【點擊查看更多行業資訊】
在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！

受限於人工同傳或速記人員費用高、記憶力及翻譯 / 速記速度有限等因素，搜狗 AI 錄音筆逐漸出現在越來越多會議場景中，AI 錄音筆可以將演講者的語音實時轉成文本，並且進行同步翻譯，很大程度上取代了人工同傳和速記人員，幫助人們實現了不同語言間的低成本交流。那麼，這背後又有哪些智能語音技術作爲支撐？在 AICon 大會召開前夕，InfoQ 有幸採訪了搜狗 AI 交互技術部總經理陳偉，聽他分享搜狗 AI 交互技術的發展歷程及應用實踐。

背景

隨着深度學習技術的興起，人們已經看到了 AI 在感知識別層面如語音、視覺等領域取得的驚人成果，AI 智能語音技術也正在快速走向實用。搜狗近年來一直在 AI 領域持續佈局，語音識別在搜狗輸入法的大規模應用也呈現出漸行漸好的趨勢。

藉此契機，陳偉於 2012 年 8 月加入搜狗，負責帶領搜狗 AI 交互技術團隊，圍繞搜狗“自然交互 + 知識計算”的 AI 戰略，重點佈局搜狗多模態人機交互技術的研發和產品化工作，研究的領域覆蓋了多模態人機交互系統的各項技術，同時重點研究如何結合感知和認知方向的技術打造出自然的人機交互體驗，期間還帶領團隊研發了搜狗分身、機器同傳、個性化合成、變聲等前沿性的 AI 創新能力，目前研發的技術重點服務於搜狗的輸入法、搜索、AI 硬件等核心產品，同時也在以搜狗 AI 開放平臺的方式對外輸出。

搜狗 AI 交互技術的發展歷程

近年來，搜狗在智能語音交互上取得了一定成績，在車載、智能家居、可穿戴移動設備上都有規模化落地。但在智能語音交互技術的推進過程中，搜狗也是在不斷的嘗試和探索中蜿蜒前行。

通常，語音錄入和轉寫的準確率要依賴於真實場景而定，受限於噪聲、口音、講話方式等因素的影響，準確率會有一定的差異。但是目前搜狗在轉寫上已經具備了較強的魯棒性，針對不同場景的識別效果波動性已經有明顯減小。廣義的語音識別不僅限於內容的識別，還包括了語音分析等核心技術，例如搜狗的同傳 3.0 技術以“多模態”和“自主學習“爲核心，加入視覺 (OCR) 和思維能力（知識圖譜），讓機器同傳不僅會聽，還首次具備了會看、能理解會推理的能力。

在採訪中，陳偉表示，搜狗在智能語音交互技術的發展，主要分爲以下幾個階段：

1、語音搜索階段

語音搜索方便了用戶在搜狗搜索上快捷的檢索，早期識別準確率不夠高，但是搜索可以返回多個檢索結果，很大程度可以降低識別錯誤帶來的影響。目前搜狗識別準確率已經達到較高的水平，搜狗搜索已經可以根據用戶語音搜索請求直接給出答案，用戶體驗感有了較大提升。

2、語音輸入階段

搜狗語音輸入能幫助用戶更高效、快捷地輸入內容，語音輸入的最高輸出效率目前能達到每分鐘 300~400 個字，特別是伴隨着數據、算法和算力的不斷提升，語音輸入識別準確率也得到了大幅提升，近幾年，搜狗每年的識別字錯誤率都能保持 30% 以上的下降，語音輸入的日 PV 已經達到 10 億 +。但是，快速發展的背後也讓搜狗發現通用的語音輸入無法解決用戶個性詞的識別，比如通訊錄、工作領域的詞彙等，所以去年搜狗發佈了個性化語音識別能力，能夠基於用戶在搜狗輸入法的用戶詞庫，實時優化語音識別效果，針對個性化詞的識別錯誤率下降了 40%。

3、語音翻譯階段

語音翻譯能夠方便用戶進行實時跨語言的交流，結合搜狗在語音識別、機器翻譯、語音合成領域的技術積累，2016 年搜狗推出了首款商用 AI 同傳系統—搜狗同傳，能夠實時查看或收聽同傳譯文，目前已經支持了大會演講、線上直播、遠程會議等多個場景，同時在輸入法、錄音筆等產品上也上線了同傳的功能。此外，搜狗還推出了搜狗翻譯機，這是業內較早地將語音翻譯能力進行離線化的嘗試，不聯網也可以實時進行跨語言交流。產品背後，是搜狗智能語音團隊在模型壓縮、低算力推理、知識提純等方面的不斷探索。

4、語音交互階段

2011 年的 Siri 和 2014 年的 Ehco 有效推動了語音助手類產品的快速成熟，也帶動了國內一大批語音交互類產品的發佈。在通用語音交互上的研發過程中，研究團隊逐漸發現目前智能語音交互的產品，核心在於對話能力仍無法滿足用戶的預期，無法做到自然地對話。因此，搜狗 AI 團隊的研究重點主要放在了面向於垂直剛需場景的任務型對話研究上，語音交互側重於車載、智能家居、可穿戴移動設備等領域，提供全雙工的語音交互能力，並在 2016 年發佈了自有的語音交互 VUI- 知音 OS。

5、多模態交互階段

搜狗的人機交互主張是自然交互，如何做到自然交互，搜狗認爲這一問題的答案，一定是多模態交互。不侷限於語音，而是語言、視覺等多種模態信息相結合，共同提升交互體驗。因此，搜狗在多模態感知、多模態人機交互、多模態表達等方向都在持續研發，特別是其發佈的搜狗分身，實現了以數字人的形象和人進行對話和交互，形成了搜狗在交互領域最具差異化和代表性的交互產品。

結語

據陳偉介紹，未來 AI 語音交互產品將會走向多模態，搜狗同傳也不例外。就搜狗同傳產品而言，在經過多重“感官”的調用後，搜狗同傳不僅可以做到翻譯更加快速和準確，而且會更加自然、專業、智能。數據顯示，在“聽”“看”“思考”三位一體的作用下，搜狗多模態同傳系統針對 PPT 內容的識別準確率提升 21.7%，翻譯正確率提升 40.3％。

【雲棲號在線課堂】每天都有產品技術專家分享！
課程地址：https://yqh.aliyun.com/live

立即加入社羣，與專家面對面，及時瞭解課程最新動態！
【雲棲號在線課堂社羣】https://c.tb.cn/F3.Z8gvnK

原文發佈時間：2020-06-03
本文作者：李冬梅
本文來自：“AI前線公衆號”，瞭解相關信息可以關注“AI前線”

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

搜狗 AI 交互技術部總經理陳偉：未來AI語音交互產品將會走向多模態

背景

搜狗 AI 交互技術的發展歷程

1、語音搜索階段

2、語音輸入階段

3、語音翻譯階段

4、語音交互階段

5、多模態交互階段

結語

阿里推出「阿里雲網盤」App，爲網盤發展提供更強勁推動力

【雲棲號直播】本週重磅：阿里雲CDN產品解讀及全站加速在遊戲行業的最佳實踐

基於 Flink 的典型 ETL 場景實現

mPaaS：全新移動開發平臺，只爲打造性能更優越的App

零基礎開發 nginx 模塊

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

搜狗 AI 交互技術部總經理陳偉：未來AI語音交互產品將會走向多模態

背 景

搜狗 AI 交互技術的發展歷程

1、語音搜索階段

2、語音輸入階段

3、語音翻譯階段

4、語音交互階段

5、多模態交互階段

結 語

背景

結語