灵犀云产品白皮书

本文档主要描述了中国移动智能语音能力平台灵犀云的基本功能，为初次使用灵犀云的开发者提供简要的入门信息。文档中提供了灵犀云平台的架构和功能介绍，但并不作为开发指南使用。

概述

灵犀云智能语音能力平台（下称“灵犀云”）是中国移动面向互联网开发者推出的智能语音应用开发交互平台，采用亚太地区最大的语音上市公司——科大讯飞研制的全球领先中文智能语音技术，免费向开发者提供语音合成、语音识别、语音听写等能力，为语音应用开发爱好者提供方便易用的开发接口，使各种应用的用户随时随地获得高质量的智能语音服务。

产品服务

基础服务

基础服务包括在线语音合成、在线命令词识别、语音听写、语义理解等。

在线语音合成

语音合成是指让文字转换为声音，让机器能够说话。灵犀云使用的InterPhonic语音合成系统是由科大讯飞推出的新一代文语转化引擎，采用最先进的中文文本、韵律分析算法和大语料库的合成方法，合成语音已经接近真人的自然效果。主要功能有：

1) 高质量语音，将输入文本实时转换为流畅、清晰、自然和具有表现力的语音数据；

2) 多语种服务，整合了多语种语音合成引擎，可提供中文、中英文混读、纯正英文、粤语、粤英文混读的语音合成服务；

3) 多音色服务，提供丰富、风格多样化的音色选择，如浑厚淳正的男声，温柔甜美的女声，标准地道的英语男女声等等，所有音色库均继承科大讯飞语音合成技术一贯的优良品质。用户可供根据不同应用业务需要，选择最适合应用场景的语音风格，并支持实时动态的音色切换；

4) 高精度文本分析技术，保证了对文本中未登录词（如地名）、多音字、特殊符号（如标点、数字）、韵律短语等智能分析和处理；

5) 多字符集支持，支持输入GB2312、GBK、Big5、Unicode和UTF-8等多种字符集，普通文本和带有CSSML标注等多种格式的文本信息；

6) 多种数据输出格式，支持输出多种采用率的线性Wav，A/U率Wav和Vox等格式的语音数据；

7) 提供预录音合成模板，对合成文本中符合语音模板固定成分的文本使用发音人预录语音，非固定成分使用合成语音。这种方法有利于改进定制领域合成效果，简化定制流程，加快定制速度，同时也使得预录音的使用更自然、更灵活，满足更广泛的应用需求；

8) 语音调整功能，开发接口提供了音量、语速、音高（基频）等多种合成参数动态调整功能；

9) 配置和管理工具，合成引擎提供了统一进行配置和管理的工具，完成了全局参数配置、用户词典、用户规则、定制资源包管理等功能；

10) 效果优化，合成引擎提供了以定制资源包和CSSML为代表的多种针对实际应用环境进行合成效果优化的方法；

11) 一致的访问方式，能以C/S方式访问远程的语音合成服务，并且提供与本地调用相同的开发接口，实现了完全透明的访问；

12) 背景音和预录音，提供了背景音和预录音的功能，大大提高了合成语音的自然度和表现力。

在线命令词识别

语音识别是指把声音转换成文字，让机器能够听懂人类的声音。灵犀云采用科大讯飞的InterReco语音识别系统为自助语音服务提供关键字语音识别和呼叫导航功能。这是一款与说话人无关的语音识别系统，具备优秀的识别率，提供全面的开发支持，丰富的工具易于使用，产品核心技术上达到了国际领先水平。

针对语音识别应用中面临的方言口音、背景噪声等问题，InterReco基于实际业务系统中所收集的涵盖不同方言和不同类型背景噪声的海量语音数据，通过先进的区分性训练方法进行语音建模，使语音识别器在复杂应用环境下均有良好的效果表现。InterReco主要包括以下功能特性：

1) 前端语音处理

前端语音处理指利用信号处理的方法对说话人语音进行检测、降噪等预处理，以便得到最适合识别引擎处理的语音。主要功能包括：

a) 端点检测

端点检测是对输入的音频流进行分析，确定用户说话的起始和终止的处理过程。一旦检测到用户开始说话，语音开始流向识别引擎，直到检测到用户说话结束。这种方式使识别引擎在用户说话的同时即开始进行识别处理。

b) 噪音消除

在实际应用中，背景噪声对于语音识别应用是一个现实的挑战，即便说话人处于安静的办公室环境，在电话语音通话过程中也难以避免会有一定的噪声。InterReco语音识别系统具备高效的噪音消除能力，以适应用户在千差万别的环境中应用的要求。

c) 智能打断

智能打断功能使用户可以在自助语音服务的提示语播放过程中随时说出自己的需求，而无需等待播放结束，系统能够自动进行判断，立即停止提示语的播放，对用户的语音指示做出响应。该功能使人机交互更加高效、快捷、自然，有助于增强客户体验。

2) 后端识别处理

后端识别处理对说话人语音进行识别，得到最适合的结果，主要特性有：

a) 大词汇量、独立于说话人的健壮识别功能

InterReco满足大词汇量、与说话人无关的识别要求。InterReco产品可以支持数万条语法规模的词汇量；并能适应不同年龄、不同地域、不同人群、不同信道、不同终端和不同噪声环境的应用环境。

b) 置信度输出

置信度反映了识别结果的可信程度。语音识别引擎可以在返回识别结果时会携带该识别结果的置信度，应用程序可以通过置信度的值进行分析和后续处理。

c) 多识别结果

又称多候选技术，在某些识别过程中，识别引擎可以通过置信度判决的结果向应用程序返回满足条件的多个识别结果，而不是唯一的结果。识别系统提供了可能的识别结果列表，并按置信度结果从高到低进行排列。在业务设计中，可以根据应用要求向用户提供这些结果，供用户进行二次选择。通过置信度判决和多识别结果输出技术可以开发更加灵活、更加人性化的业务流程。

d) 说话人自适应

当用户与语音识别系统进行多次会话过程中，系统能够在线提取通话的语音特征，自动调整识别参数，使识别效果得到持续优化。

e) 多槽识别

语音识别的槽（Slot）代表一个关键字，即在一次会话过程中可以识别说话人语音中包含的多个关键字，这可以提高语音识别应用的效率，增强用户体验。

f) 热词识别

热词识别使得语音识别应用程序能够在说话者说话的同时检测一个特定的词或短语。当说话者说到这个短语的时候，识别引擎会把控制权交还给应用程序。在应用程序使用该功能可以使识别器能够在后台监听输入的语音，直到用户说出特定的短语进行请求时才与用户交互。

g) 智能调整识别策略

InterReco能够自动根据系统运行情况动态调整语音识别策略，在系统较忙时（CPU占用较高），采用计算量较小但具有足够精度的策略以保证系统的响应速度；在系统不忙时（CPU占用较低），采用精度更高的策略以达到更优的识别效果。该功能在保障稳定运行的基础上，充分利用系统的计算资源，有利于保护客户的设备投资。

h) 语音录入

允许用户通过语音方式动态增加识别语法。该功能使用户可以更加灵活的维护语法，扩展语音识别范围，并且能够提高识别系统对用户语音的适应能力，提高识别的准确率。

i) 呼叫日志

语音识别的呼叫日志在系统中有着非常重要的作用，该日志记录输入的音频、加载的语法、识别过程的中间结果、识别模块呼叫过程、识别使用的各种参数、识别结果以及当时的系统环境信息。这些数据是效果分析和优化的基础和依据。

语音听写

语音听写，是指能够把用户说的任意语音转换成对应文字信息的智能语音技术，是移动互联时代下一种全新的便捷信息录入方式。相对于传统的键盘或手写输入，使用语音听写进行文字输入可大幅提高用户在移动终端上的文字输入速度。若再配合语义理解，语音听写就能够完成“听懂人说话”的功能，和语音合成构成“能听会说”的语音交互模式。

灵犀云语音听写能力可为开发者提供技术领先的、最准确、最顺畅的语音听写服务。其主要功能有：

1）支持中文和中英文混读的常见语句听写

灵犀云语音听写对于日常使用的常用对话有着很高的识别准确率，包含短信类、生活、交通、娱乐、科技、数字数值、名人、互联网热词、新闻等领域。这些领域的整句识别正确率可以达到80%~95%。同时还支持中文中夹带英文单词、简单的英文语句，基本可以达到中国人日常生活的要求。

2）支持中文标点智能预测

灵犀云语音听写使用超大规模的语言模型，对识别结果语句智能预测其对话语境，可向用户提供智能断句和标点符号的预测。

声纹识别

声纹识别（Voiceprint Recognize），是一项根据语音波形反映说话人生理和行为特征的语音参数，自动识别说话人身份的技术。声纹识别所提供的安全性可与其他生物识别技术（指纹、掌形和虹膜）相媲美，且只需要电话和麦克风即可，数据采集极为方便，造价低廉，是最为经济、可靠、简便和安全的身份识别方式。

灵犀云开放平台支持三种类型的声纹密码，即：
· 文本密码（密码为指定文本内容）；
· 自由说（密码内容不限）；
· 数字密码（密码为随机数字串）。

依据独一无二的生理特征，每个人的声纹模型被精确地建立，识别率超过95%，业界绝对领先。

语音评测

语音评测是通过智能语音技术自动对发音水平进行评价、发音错误、缺陷定位和问题分析的软件系统。涉及的核心技术主要可分为三个部分：中文普通话发音水平自动评测技术、英文发音水平自动评测技术、中英文发音自动评测统一技术框架。（温馨提示：因考试领域的定制化要求较高，目前我们所开放的通用语音评测能力并不适用，敬请期待我们接下来更加完美的表现）

灵犀云语音评测技术涵盖中文和英文两个语种，提供字、词、句的标准及流畅度评分。

语法功能

语法就是用户说话的描述，包括两部分：
• 语法：列出用户系统所有能支持的说话语句。
• 语义：列出语句中每一个关键词或短语的含义。

语法是语音识别系统非常重要的一个部分，在一般的电话语音应用中，系统在预先设置的语法范围内判断用户说话内容，输出该语法对应的语义。InterReco采用国际标准语法定义协议，为用户提供最方便易用的语法功能，主要包括：

a) 支持符合SRGS 1.0规范的语法

SRGS（Speech Recognition Grammar Specification）是W3C定义的语音识别语法规格，在规范中定义了XML格式和ABNF格式两种的语法书写规范，InterReco系统同时支持这两种语法格式。

b) 语法编译

语法编译器负责将用户编写的语法文本编译成为语音识别引擎所支持的内部二进制格式。InterReco语音识别引擎既可以支持运行时刻在线编译语法文件，也同时支持直接加载离线预编译的内部二进制文件，以提高系统响应速度。

c) 语法动态加载/卸载

在系统运行过程中，用户可以使用开发接口控制语法的动态加载和卸载。如果该语法没有编译，那么将在加载的同时完成编译。同样，为了释放资源，用户也可以卸载不再被使用的语法。

d) 语法激活/逆激活

在一次识别的交互中，系统允许多个语法同时被加载，但在应用逻辑的每个步骤，并不是所有的语法都需要被激活，用户可以通过开发接口控制当前加载的所有语法中需要被使用的语法，也就是“激活”状态的语法，在当前场景结束后可以把该语法设置为“非激活”状态。

e) 语法缓存

在大规模的语音应用中，有些语法在不同对话过程中可能需要多次被使用，如果在每次对话前都实时对这些需要重复使用的语法进行加载、卸载、编译等操作，会导致系统性能受到明显影响。InterReco系统允许对语法进行缓存处理，缓存方式包括http、磁盘、内存等级别，并允许配置缓存的策略、磁盘使用限制和内存使用限制等参数。

f) 动态语法

动态语法是由应用程序在运行时动态创建和修改的语法。在有些应用中，语法并不能在应用程序启动前完全确定，在运用程序运行过程中，将由系统或用户动态创建或修改语法。InterReco支持动态法语功能。

g) 语法权重

系统允许对语法的不同条目的权重进行指定。通过对业务的合理分析，调整不同条目的权重，可以大幅提高系统的识别准确率。

h) 语法优化

在语法编译过程中，语法编译器可以自动对语法进行优化，以提高语法的加载速度，或者减少语法编译后的尺寸，达到优化系统性能的目的。

i) 语法远程获取

系统允许通过http协议获取远程服务上的语法文件，以满足不同的应用需求。

j) 提供内置语法

系统内置一些常见应用场景的语法，如航班号、邮编、区号、身份证、时间、日期等。应用程序设计者灵活使用这些内置语法，可以加速开发和应用发布过程，提高产品的可用性。

语义理解

语义，是指语言描述的事物所代表的含义，以及这些含义之间的关系。人类的语言是由符号构成的体系，语义实际上也就是对符号的解释。

人们的日常生活是由一个个场景构成的，同样的语言在不同的场景中所代表的含义或会截然不同，因此，语义具有领域性特征，没有领域特征的语义是不存在的。智能语义，就是使用计算机去理解语言在特定领域里所代表的语义。

灵犀云提供的语义理解能力，在实际中有如下两个方面的应用：

1）从用户的输入中提取出所需要的信息：

例：用户要在某日程app中新建一个提醒，采用一般的输入方式需要在一个表单界面填写好提醒时间、提醒内容等信息。

若该app使用了灵犀云智能语义技术，用户只需直接说出“明天上午9点开会”，灵犀云就会将“时间：明天上午9点”、“提醒内容：开会”等关键信息返回给app，从而完成提醒条目的创建。

2）知识库功能：

在互动类、问答类场景的app中，用户输入一条问题、状态或信息后，app不需要处理使用者输入的语义，灵犀云智能语义技术可对用户的输入进行准确的理解，从而选择合适的答案或相关的内容进行回复。这项技术已经应用在例如灵犀语音助手等app中，其中一个典型的使用场景就是用户“调戏”语音助手后app所给出的反应。

例：用户向灵犀说“我是出来打酱油的”，灵犀会根据知识库的内容回应“咱们同行啊”。

个性化服务

个性化合成

个性化合成是深层次、高级的语音合成技术，也是未来语音合成技术的重要发展方向，通过个性化合成，用户可以使用自己定制的声音来合成文本。灵犀云目前支持的个性化合成特性包括：

1) 提供个性化音库服务：用户可以使用自己的声音训练音库，并通过上传录音来制作个性化音库。

2) 提供多方言：包含普通话、四川话、陕西话等多种方言音库，提供多种特色音库。

3) 提供时尚流行的音库：获得不同发音人提供的语音服务。

个性化听写

个性化听写是对语音听写技术的进一步延伸和扩展。每个用户都有属于自己的联系人和热词，通过在通用的语言模型上加载这些联系人和热词，构建属于每个用户的听写资源，使得用户在使用听写的过程中准确度大大提高。灵犀云目前支持的个性化听写特性包括：

1) 通过上传联系人的操作，体验快速准确的语音识别效果。

2) 通过编辑上传个性化词条，获得专属用户用语习惯的独特语音体验。

3) 上传个性化词表，系统可以对用户的声音和说话习惯进行适配，显著提高用户的识别率。

4) 提供热词集合信息，包括多种专业词汇、热门短句、网络流行语等供选择。

个性化语义

和个性化听写类似，个性化语义也是在通用的语义模型中加载用户的联系人、热词、语义场景等参数信息，构建属于每个用户的语义资源。目前灵犀云支持的个性化语义特性包括：

1) 可以上传联系人热词，便于短信、联系人、电话类的应用使用语义服务；

2) 支持定制语义场景，并根据场景信息来动态适配结果；

3) 能够对联系人等热词进行智能模糊匹配，提供终端的用户体验；

离线命令词识别与离线语音合成

离线命令词识别：开发者通过自定义的命令词，精准识别特定的词语，离线识别的命令词是开发者自己定义，命令词最大长度为31个字。

离线语音合成：基于嵌入式离线合成引擎，零流量实时响应，实现快速稳定的本地化语音服务。提供中英粤多语种，男女声多风格的选择，音量、语速、音高等参数也支持动态调整——定制最专属的语音合成。
离线语音服务和在线语音服务的主要区别在开发包大小、合成效果、合成效率方面。

（1）开发包大小方面：离线SDK包比在线SDK包要大，因为前者计算在本地，而后者在云端；

（2）响应效率方面：离线服务核心计算在本地，减少了网络交互的时间，相比在线服务响应快；

（3）效果方面：由于本地计算能力和存储空间的限制，离线资源相对小点，但同时保证离线服务效果，可以通过下载集成免费的体验包来抢先体验效果。

语音唤醒

语音唤醒让你的应用无需触碰，实现直接进入，让应用具备全语音交互能力。低功率持续侦听技术确保电量、内存等消耗均较低，唤醒率总体超过95%，业界绝对领先，支持多唤醒词定制。

应用案例：

（1）通过智能家居（家电）控制终端来操控不同的接入设备。

例如：智能语音与智能家居（家电）综合遥控器（或手机APP）的结合，对电视、空调、冰箱、插座等智能家居（家电）进行操作。首先对综合遥控器（或手机）说出定制唤醒词，让其处于等待指令状态，然后开始语音语义交互，最终的交互结果由遥控器（或手机APP）发送给相应的设备。

（2）通过唤醒词直接操控智能家居（家电），不同设备可定制不同的唤醒词。

例如：需要操控智能电视时，可以通过特定唤醒词唤醒电视，直接对其下达换台、搜节目、调整音量等指令。

业务服务

业务定制

为更好的让语音服务渗透各类型的应用中，灵犀云提供的语音合成和语音识别等服务能支持定制（需另外商谈收费标准），定制的范围包括但不限于：

灵犀云智能语音云平台产品白皮书（摘要）