卷首语

作者 | 李冬梅

采访嘉宾 | Daniel Povey、王育军

智能语音技术发展至今，如何解决跨设备“自由场景自由说”，一直是摆在智能语音研究者们面前的一道难题。在AICon 2020全球人工智能与机器学习技术大会（上海站）召开前期，InfoQ有幸采访到了小米首席语音科学家Daniel Povey和小米语音技术负责人王育军，听他们分享对智能语音技术发展遇到的瓶颈问题的看法。

智能语音技术面临的瓶颈

智能语音技术是最早落地的人工智能技术，也是在AI产品中应用最为广泛的一项技术。自从深度学习引入到智能语音领域后，这项技术才真正地从不温不火变为炙手可热。深度学习的引入使语音识别文字的准确率从70%多，提升到了近90%，也正因为如此，各大智能语音产品生产商看到了这背后蕴含的商机，纷纷推出智能语音助手，抢占市场。

目前，智能语音技术被应用在了很多不同的端上，语音技术是整个语音交互生态中的一环。市场上纷繁复杂的智能语音产品涵盖了智能手表、智能音箱、智能机器人、智能手机助手等，例如苹果的Siri、微软的 Cortanna、亚马逊的Echo、小米的小爱同学、华为 HiAssistant、百度小度等，在这些品类各异的产品背后，智能语音技术都面临着同样的一个问题——难以解决跨设备“自由场景自由说”的问题。

在王育军看来，智能语音技术在语音合成和语音识别方面上都存在着棘手的问题。在语音合成方面，当前面临的问题是把合成从艺术做成规模化产品：过去语音合成是用一位声优，录出尽量多的专业录音数据，然后训练声学模型和声码器。目前研究者们需要时间来逐步论证数据采集、使用与标注的方法，使用户可以听见自己熟悉的声音。甚至可以弱化合成和语音编码，语音降噪的边界。

在语音识别方面，语音识别的难点从来都没有变过，仍然是尽量使用户可以“自由场景自由说”。场景中面临的挑战是混响、竞争说话人、极低信噪比等。在说话方式上面临儿童发音不清楚、口音和方言多语言问题，这些挑战会长期存在。各方都在呼唤一套可以“兼容”自由场景自由说的产品方案，拉近技术边界和用户预期。当然从算法的逻辑上讲，无论是回归问题还是分类问题，都会面临“未见”的情况，这是永恒的难点。

解决跨设备“自由场景自由说”是当务之急

王育军表示，以小米的小爱同学为例，如果家居设备联动做得不好，会让用户唤醒小爱同学的时候一呼多应，让人欲言又止，无法自由说。再比如，声纹技术本来初衷是简化用户的语音操作，但随着声控设备的增加，每个设备都需要做声纹注册，增加了用户的使用成本。很多家居控制设备是家庭成员共享的，这些设备需要记住每个语音使用成员的偏好，这些问题都需要研发团队不断进行优化。

语音识别技术发展至今，已经在工业、医疗、教育、金融等各行业进行了落地，这些摆在开发者面前的问题一时间难以解决，最终导致的问题就是识别准确率无法达到预期。

虽然语音识别产品供应商们纷纷表示其产品的识别准确率达到了95%甚至97%，但针对当下语音识别技术的发展现状，小米首席语音科学家、语音识别开源工具 Kaldi之父Daniel认为：

现在业内许多人士认为，语音识别系统的准确度已经很高了，但实际上这种高精准度仅仅针对的是某些特定的语音类型。现阶段，让机器来识别人们日常交流还是比较困难的，尤其是当周围环境掺杂着噪声、音乐且多人同时发声时。也就是说，我们还需要对现有的语音识别技术进行认真打磨。

可见，如何解决跨设备“自由场景自由说”问题是摆在所有语音开发者面前的一道难题，如果这道难题能在技术上找到破解之法，那就离一下次语音技术突破不远了。

AI前线（2020年3月）

卷首语

智能语音技术面临的瓶颈

解决跨设备“自由场景自由说”是当务之急

目录

【面试准备】又一次失败的面试经历，题目离谱～资深软件测试工程师

dotnet 8 版本与银河麒麟V10和UOS系统的 glibc 兼容性

2021雲智技術論壇-知識智能化專場

智慧家庭場景的推薦系統的發展歷程和方向 | InfoQ《公開課》

中國卓越技術團隊訪談錄（2021年第六季）

共話“勒索軟件”應對之道——能源篇

共話“勒索軟件”應對之道——電子政務篇

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結