卷首语
作者 | 李冬梅
采访嘉宾 | Daniel Povey、王育军
智能语音技术发展至今,如何解决跨设备“自由场景自由说”,一直是摆在智能语音研究者们面前的一道难题。在AICon 2020全球人工智能与机器学习技术大会(上海站)召开前期,InfoQ有幸采访到了小米首席语音科学家Daniel Povey和小米语音技术负责人王育军,听他们分享对智能语音技术发展遇到的瓶颈问题的看法。
智能语音技术面临的瓶颈
智能语音技术是最早落地的人工智能技术,也是在AI产品中应用最为广泛的一项技术。自从深度学习引入到智能语音领域后,这项技术才真正地从不温不火变为炙手可热。深度学习的引入使语音识别文字的准确率从70%多,提升到了近90%,也正因为如此,各大智能语音产品生产商看到了这背后蕴含的商机,纷纷推出智能语音助手,抢占市场。
目前,智能语音技术被应用在了很多不同的端上,语音技术是整个语音交互生态中的一环。市场上纷繁复杂的智能语音产品涵盖了智能手表、智能音箱、智能机器人、智能手机助手等,例如苹果的Siri、微软的 Cortanna、亚马逊的Echo、小米的小爱同学、华为 HiAssistant、百度小度等,在这些品类各异的产品背后,智能语音技术都面临着同样的一个问题——难以解决跨设备“自由场景自由说”的问题。
在王育军看来,智能语音技术在语音合成和语音识别方面上都存在着棘手的问题。在语音合成方面,当前面临的问题是把合成从艺术做成规模化产品:过去语音合成是用一位声优,录出尽量多的专业录音数据,然后训练声学模型和声码器。目前研究者们需要时间来逐步论证数据采集、使用与标注的方法,使用户可以听见自己熟悉的声音。甚至可以弱化合成和语音编码,语音降噪的边界。
在语音识别方面,语音识别的难点从来都没有变过,仍然是尽量使用户可以“自由场景自由说”。场景中面临的挑战是混响、竞争说话人、极低信噪比等。在说话方式上面临儿童发音不清楚、口音和方言多语言问题,这些挑战会长期存在。各方都在呼唤一套可以“兼容”自由场景自由说的产品方案,拉近技术边界和用户预期。当然从算法的逻辑上讲,无论是回归问题还是分类问题,都会面临“未见”的情况,这是永恒的难点。
解决跨设备“自由场景自由说”是当务之急
王育军表示,以小米的小爱同学为例,如果家居设备联动做得不好,会让用户唤醒小爱同学的时候一呼多应,让人欲言又止,无法自由说。再比如,声纹技术本来初衷是简化用户的语音操作,但随着声控设备的增加,每个设备都需要做声纹注册,增加了用户的使用成本。很多家居控制设备是家庭成员共享的,这些设备需要记住每个语音使用成员的偏好,这些问题都需要研发团队不断进行优化。
语音识别技术发展至今,已经在工业、医疗、教育、金融等各行业进行了落地,这些摆在开发者面前的问题一时间难以解决,最终导致的问题就是识别准确率无法达到预期。
虽然语音识别产品供应商们纷纷表示其产品的识别准确率达到了95%甚至97%,但针对当下语音识别技术的发展现状,小米首席语音科学家、语音识别开源工具 Kaldi之父Daniel认为:
现在业内许多人士认为,语音识别系统的准确度已经很高了,但实际上这种高精准度仅仅针对的是某些特定的语音类型。现阶段,让机器来识别人们日常交流还是比较困难的,尤其是当周围环境掺杂着噪声、音乐且多人同时发声时。也就是说,我们还需要对现有的语音识别技术进行认真打磨。
可见,如何解决跨设备“自由场景自由说”问题是摆在所有语音开发者面前的一道难题,如果这道难题能在技术上找到破解之法,那就离一下次语音技术突破不远了。
目录
生态评论
大疆禁飞、TikTok 禁装,视野之外的“华为”们如何出海?
重磅访谈
Kaldi之父Daniel Povey:我为什么选择在小米开发下一代Kaldi?
落地实践
对话微众银行:联邦学习在金融领域的实践方法及落地建议
企业机器学习平台
对话腾讯大数据团队:自研联邦学习系统的技术实践和难点
推荐阅读
芯片“门外汉”CEO 拿什么拯救英特尔?
精选论文导读
阿里达摩院自动驾驶新突破,实现 3D 物体检测精度与速度兼得 | CVPR 2020 论文解读