靈犀雲產品白皮書

本文檔主要描述了中國移動智能語音能力平臺靈犀雲的基本功能，爲初次使用靈犀雲的開發者提供簡要的入門信息。文檔中提供了靈犀雲平臺的架構和功能介紹，但並不作爲開發指南使用。

概述

靈犀雲智能語音能力平臺（下稱“靈犀雲”）是中國移動面向互聯網開發者推出的智能語音應用開發交互平臺，採用亞太地區最大的語音上市公司——科大訊飛研製的全球領先中文智能語音技術，免費向開發者提供語音合成、語音識別、語音聽寫等能力，爲語音應用開發愛好者提供方便易用的開發接口，使各種應用的用戶隨時隨地獲得高質量的智能語音服務。

產品服務

基礎服務

基礎服務包括在線語音合成、在線命令詞識別、語音聽寫、語義理解等。

在線語音合成

語音合成是指讓文字轉換爲聲音，讓機器能夠說話。靈犀雲使用的InterPhonic語音合成系統是由科大訊飛推出的新一代文語轉化引擎，採用最先進的中文文本、韻律分析算法和大語料庫的合成方法，合成語音已經接近真人的自然效果。主要功能有：

1) 高質量語音，將輸入文本實時轉換爲流暢、清晰、自然和具有表現力的語音數據；

2) 多語種服務，整合了多語種語音合成引擎，可提供中文、中英文混讀、純正英文、粵語、粵英文混讀的語音合成服務；

3) 多音色服務，提供豐富、風格多樣化的音色選擇，如渾厚淳正的男聲，溫柔甜美的女聲，標準地道的英語男女聲等等，所有音色庫均繼承科大訊飛語音合成技術一貫的優良品質。用戶可供根據不同應用業務需要，選擇最適合應用場景的語音風格，並支持實時動態的音色切換；

4) 高精度文本分析技術，保證了對文本中未登錄詞（如地名）、多音字、特殊符號（如標點、數字）、韻律短語等智能分析和處理；

5) 多字符集支持，支持輸入GB2312、GBK、Big5、Unicode和UTF-8等多種字符集，普通文本和帶有CSSML標註等多種格式的文本信息；

6) 多種數據輸出格式，支持輸出多種採用率的線性Wav，A/U率Wav和Vox等格式的語音數據；

7) 提供預錄音合成模板，對合成文本中符合語音模板固定成分的文本使用發音人預錄語音，非固定成分使用合成語音。這種方法有利於改進定製領域合成效果，簡化定製流程，加快定製速度，同時也使得預錄音的使用更自然、更靈活，滿足更廣泛的應用需求；

8) 語音調整功能，開發接口提供了音量、語速、音高（基頻）等多種合成參數動態調整功能；

9) 配置和管理工具，合成引擎提供了統一進行配置和管理的工具，完成了全局參數配置、用戶詞典、用戶規則、定製資源包管理等功能；

10) 效果優化，合成引擎提供了以定製資源包和CSSML爲代表的多種針對實際應用環境進行合成效果優化的方法；

11) 一致的訪問方式，能以C/S方式訪問遠程的語音合成服務，並且提供與本地調用相同的開發接口，實現了完全透明的訪問；

12) 背景音和預錄音，提供了背景音和預錄音的功能，大大提高了合成語音的自然度和表現力。

在線命令詞識別

語音識別是指把聲音轉換成文字，讓機器能夠聽懂人類的聲音。靈犀雲採用科大訊飛的InterReco語音識別系統爲自助語音服務提供關鍵字語音識別和呼叫導航功能。這是一款與說話人無關的語音識別系統，具備優秀的識別率，提供全面的開發支持，豐富的工具易於使用，產品核心技術上達到了國際領先水平。

針對語音識別應用中面臨的方言口音、背景噪聲等問題，InterReco基於實際業務系統中所收集的涵蓋不同方言和不同類型背景噪聲的海量語音數據，通過先進的區分性訓練方法進行語音建模，使語音識別器在複雜應用環境下均有良好的效果表現。InterReco主要包括以下功能特性：

1) 前端語音處理

前端語音處理指利用信號處理的方法對說話人語音進行檢測、降噪等預處理，以便得到最適合識別引擎處理的語音。主要功能包括：

a) 端點檢測

端點檢測是對輸入的音頻流進行分析，確定用戶說話的起始和終止的處理過程。一旦檢測到用戶開始說話，語音開始流向識別引擎，直到檢測到用戶說話結束。這種方式使識別引擎在用戶說話的同時即開始進行識別處理。

b) 噪音消除

在實際應用中，背景噪聲對於語音識別應用是一個現實的挑戰，即便說話人處於安靜的辦公室環境，在電話語音通話過程中也難以避免會有一定的噪聲。InterReco語音識別系統具備高效的噪音消除能力，以適應用戶在千差萬別的環境中應用的要求。

c) 智能打斷

智能打斷功能使用戶可以在自助語音服務的提示語播放過程中隨時說出自己的需求，而無需等待播放結束，系統能夠自動進行判斷，立即停止提示語的播放，對用戶的語音指示做出響應。該功能使人機交互更加高效、快捷、自然，有助於增強客戶體驗。

2) 後端識別處理

後端識別處理對說話人語音進行識別，得到最適合的結果，主要特性有：

a) 大詞彙量、獨立於說話人的健壯識別功能

InterReco滿足大詞彙量、與說話人無關的識別要求。InterReco產品可以支持數萬條語法規模的詞彙量；並能適應不同年齡、不同地域、不同人羣、不同信道、不同終端和不同噪聲環境的應用環境。

b) 置信度輸出

置信度反映了識別結果的可信程度。語音識別引擎可以在返回識別結果時會攜帶該識別結果的置信度，應用程序可以通過置信度的值進行分析和後續處理。

c) 多識別結果

又稱多候選技術，在某些識別過程中，識別引擎可以通過置信度判決的結果嚮應用程序返回滿足條件的多個識別結果，而不是唯一的結果。識別系統提供了可能的識別結果列表，並按置信度結果從高到低進行排列。在業務設計中，可以根據應用要求向用戶提供這些結果，供用戶進行二次選擇。通過置信度判決和多識別結果輸出技術可以開發更加靈活、更加人性化的業務流程。

d) 說話人自適應

當用戶與語音識別系統進行多次會話過程中，系統能夠在線提取通話的語音特徵，自動調整識別參數，使識別效果得到持續優化。

e) 多槽識別

語音識別的槽（Slot）代表一個關鍵字，即在一次會話過程中可以識別說話人語音中包含的多個關鍵字，這可以提高語音識別應用的效率，增強用戶體驗。

f) 熱詞識別

熱詞識別使得語音識別應用程序能夠在說話者說話的同時檢測一個特定的詞或短語。當說話者說到這個短語的時候，識別引擎會把控制權交還給應用程序。在應用程序使用該功能可以使識別器能夠在後臺監聽輸入的語音，直到用戶說出特定的短語進行請求時才與用戶交互。

g) 智能調整識別策略

InterReco能夠自動根據系統運行情況動態調整語音識別策略，在系統較忙時（CPU佔用較高），採用計算量較小但具有足夠精度的策略以保證系統的響應速度；在系統不忙時（CPU佔用較低），採用精度更高的策略以達到更優的識別效果。該功能在保障穩定運行的基礎上，充分利用系統的計算資源，有利於保護客戶的設備投資。

h) 語音錄入

允許用戶通過語音方式動態增加識別語法。該功能使用戶可以更加靈活的維護語法，擴展語音識別範圍，並且能夠提高識別系統對用戶語音的適應能力，提高識別的準確率。

i) 呼叫日誌

語音識別的呼叫日誌在系統中有着非常重要的作用，該日誌記錄輸入的音頻、加載的語法、識別過程的中間結果、識別模塊呼叫過程、識別使用的各種參數、識別結果以及當時的系統環境信息。這些數據是效果分析和優化的基礎和依據。

語音聽寫

語音聽寫，是指能夠把用戶說的任意語音轉換成對應文字信息的智能語音技術，是移動互聯時代下一種全新的便捷信息錄入方式。相對於傳統的鍵盤或手寫輸入，使用語音聽寫進行文字輸入可大幅提高用戶在移動終端上的文字輸入速度。若再配合語義理解，語音聽寫就能夠完成“聽懂人說話”的功能，和語音合成構成“能聽會說”的語音交互模式。

靈犀雲語音聽寫能力可爲開發者提供技術領先的、最準確、最順暢的語音聽寫服務。其主要功能有：

1）支持中文和中英文混讀的常見語句聽寫

靈犀雲語音聽寫對於日常使用的常用對話有着很高的識別準確率，包含短信類、生活、交通、娛樂、科技、數字數值、名人、互聯網熱詞、新聞等領域。這些領域的整句識別正確率可以達到80%~95%。同時還支持中文中夾帶英文單詞、簡單的英文語句，基本可以達到中國人日常生活的要求。

2）支持中文標點智能預測

靈犀雲語音聽寫使用超大規模的語言模型，對識別結果語句智能預測其對話語境，可向用戶提供智能斷句和標點符號的預測。

聲紋識別

聲紋識別（Voiceprint Recognize），是一項根據語音波形反映說話人生理和行爲特徵的語音參數，自動識別說話人身份的技術。聲紋識別所提供的安全性可與其他生物識別技術（指紋、掌形和虹膜）相媲美，且只需要電話和麥克風即可，數據採集極爲方便，造價低廉，是最爲經濟、可靠、簡便和安全的身份識別方式。

靈犀雲開放平臺支持三種類型的聲紋密碼，即：
· 文本密碼（密碼爲指定文本內容）；
· 自由說（密碼內容不限）；
· 數字密碼（密碼爲隨機數字串）。

依據獨一無二的生理特徵，每個人的聲紋模型被精確地建立，識別率超過95%，業界絕對領先。

語音評測

語音評測是通過智能語音技術自動對發音水平進行評價、發音錯誤、缺陷定位和問題分析的軟件系統。涉及的核心技術主要可分爲三個部分：中文普通話發音水平自動評測技術、英文發音水平自動評測技術、中英文發音自動評測統一技術框架。（溫馨提示：因考試領域的定製化要求較高，目前我們所開放的通用語音評測能力並不適用，敬請期待我們接下來更加完美的表現）

靈犀雲語音評測技術涵蓋中文和英文兩個語種，提供字、詞、句的標準及流暢度評分。

語法功能

語法就是用戶說話的描述，包括兩部分：
• 語法：列出用戶系統所有能支持的說話語句。
• 語義：列出語句中每一個關鍵詞或短語的含義。

語法是語音識別系統非常重要的一個部分，在一般的電話語音應用中，系統在預先設置的語法範圍內判斷用戶說話內容，輸出該語法對應的語義。InterReco採用國際標準語法定義協議，爲用戶提供最方便易用的語法功能，主要包括：

a) 支持符合SRGS 1.0規範的語法

SRGS（Speech Recognition Grammar Specification）是W3C定義的語音識別語法規格，在規範中定義了XML格式和ABNF格式兩種的語法書寫規範，InterReco系統同時支持這兩種語法格式。

b) 語法編譯

語法編譯器負責將用戶編寫的語法文本編譯成爲語音識別引擎所支持的內部二進制格式。InterReco語音識別引擎既可以支持運行時刻在線編譯語法文件，也同時支持直接加載離線預編譯的內部二進制文件，以提高系統響應速度。

c) 語法動態加載/卸載

在系統運行過程中，用戶可以使用開發接口控制語法的動態加載和卸載。如果該語法沒有編譯，那麼將在加載的同時完成編譯。同樣，爲了釋放資源，用戶也可以卸載不再被使用的語法。

d) 語法激活/逆激活

在一次識別的交互中，系統允許多個語法同時被加載，但在應用邏輯的每個步驟，並不是所有的語法都需要被激活，用戶可以通過開發接口控制當前加載的所有語法中需要被使用的語法，也就是“激活”狀態的語法，在當前場景結束後可以把該語法設置爲“非激活”狀態。

e) 語法緩存

在大規模的語音應用中，有些語法在不同對話過程中可能需要多次被使用，如果在每次對話前都實時對這些需要重複使用的語法進行加載、卸載、編譯等操作，會導致系統性能受到明顯影響。InterReco系統允許對語法進行緩存處理，緩存方式包括http、磁盤、內存等級別，並允許配置緩存的策略、磁盤使用限制和內存使用限制等參數。

f) 動態語法

動態語法是由應用程序在運行時動態創建和修改的語法。在有些應用中，語法並不能在應用程序啓動前完全確定，在運用程序運行過程中，將由系統或用戶動態創建或修改語法。InterReco支持動態法語功能。

g) 語法權重

系統允許對語法的不同條目的權重進行指定。通過對業務的合理分析，調整不同條目的權重，可以大幅提高系統的識別準確率。

h) 語法優化

在語法編譯過程中，語法編譯器可以自動對語法進行優化，以提高語法的加載速度，或者減少語法編譯後的尺寸，達到優化系統性能的目的。

i) 語法遠程獲取

系統允許通過http協議獲取遠程服務上的語法文件，以滿足不同的應用需求。

j) 提供內置語法

系統內置一些常見應用場景的語法，如航班號、郵編、區號、身份證、時間、日期等。應用程序設計者靈活使用這些內置語法，可以加速開發和應用發佈過程，提高產品的可用性。

語義理解

語義，是指語言描述的事物所代表的含義，以及這些含義之間的關係。人類的語言是由符號構成的體系，語義實際上也就是對符號的解釋。

人們的日常生活是由一個個場景構成的，同樣的語言在不同的場景中所代表的含義或會截然不同，因此，語義具有領域性特徵，沒有領域特徵的語義是不存在的。智能語義，就是使用計算機去理解語言在特定領域裏所代表的語義。

靈犀雲提供的語義理解能力，在實際中有如下兩個方面的應用：

1）從用戶的輸入中提取出所需要的信息：

例：用戶要在某日程app中新建一個提醒，採用一般的輸入方式需要在一個表單界面填寫好提醒時間、提醒內容等信息。

若該app使用了靈犀雲智能語義技術，用戶只需直接說出“明天上午9點開會”，靈犀雲就會將“時間：明天上午9點”、“提醒內容：開會”等關鍵信息返回給app，從而完成提醒條目的創建。

2）知識庫功能：

在互動類、問答類場景的app中，用戶輸入一條問題、狀態或信息後，app不需要處理使用者輸入的語義，靈犀雲智能語義技術可對用戶的輸入進行準確的理解，從而選擇合適的答案或相關的內容進行回覆。這項技術已經應用在例如靈犀語音助手等app中，其中一個典型的使用場景就是用戶“調戲”語音助手後app所給出的反應。

例：用戶向靈犀說“我是出來打醬油的”，靈犀會根據知識庫的內容迴應“咱們同行啊”。

個性化服務

個性化合成

個性化合成是深層次、高級的語音合成技術，也是未來語音合成技術的重要發展方向，通過個性化合成，用戶可以使用自己定製的聲音來合成文本。靈犀雲目前支持的個性化合成特性包括：

1) 提供個性化音庫服務：用戶可以使用自己的聲音訓練音庫，並通過上傳錄音來製作個性化音庫。

2) 提供多方言：包含普通話、四川話、陝西話等多種方言音庫，提供多種特色音庫。

3) 提供時尚流行的音庫：獲得不同發音人提供的語音服務。

個性化聽寫

個性化聽寫是對語音聽寫技術的進一步延伸和擴展。每個用戶都有屬於自己的聯繫人和熱詞，通過在通用的語言模型上加載這些聯繫人和熱詞，構建屬於每個用戶的聽寫資源，使得用戶在使用聽寫的過程中準確度大大提高。靈犀雲目前支持的個性化聽寫特性包括：

1) 通過上傳聯繫人的操作，體驗快速準確的語音識別效果。

2) 通過編輯上傳個性化詞條，獲得專屬用戶用語習慣的獨特語音體驗。

3) 上傳個性化詞表，系統可以對用戶的聲音和說話習慣進行適配，顯著提高用戶的識別率。

4) 提供熱詞集合信息，包括多種專業詞彙、熱門短句、網絡流行語等供選擇。

個性化語義

和個性化聽寫類似，個性化語義也是在通用的語義模型中加載用戶的聯繫人、熱詞、語義場景等參數信息，構建屬於每個用戶的語義資源。目前靈犀雲支持的個性化語義特性包括：

1) 可以上傳聯繫人熱詞，便於短信、聯繫人、電話類的應用使用語義服務；

2) 支持定製語義場景，並根據場景信息來動態適配結果；

3) 能夠對聯繫人等熱詞進行智能模糊匹配，提供終端的用戶體驗；

離線命令詞識別與離線語音合成

離線命令詞識別：開發者通過自定義的命令詞，精準識別特定的詞語，離線識別的命令詞是開發者自己定義，命令詞最大長度爲31個字。

離線語音合成：基於嵌入式離線合成引擎，零流量實時響應，實現快速穩定的本地化語音服務。提供中英粵多語種，男女聲多風格的選擇，音量、語速、音高等參數也支持動態調整——定製最專屬的語音合成。
離線語音服務和在線語音服務的主要區別在開發包大小、合成效果、合成效率方面。

（1）開發包大小方面：離線SDK包比在線SDK包要大，因爲前者計算在本地，而後者在雲端；

（2）響應效率方面：離線服務核心計算在本地，減少了網絡交互的時間，相比在線服務響應快；

（3）效果方面：由於本地計算能力和存儲空間的限制，離線資源相對小點，但同時保證離線服務效果，可以通過下載集成免費的體驗包來搶先體驗效果。

語音喚醒

語音喚醒讓你的應用無需觸碰，實現直接進入，讓應用具備全語音交互能力。低功率持續偵聽技術確保電量、內存等消耗均較低，喚醒率總體超過95%，業界絕對領先，支持多喚醒詞定製。

應用案例：

（1）通過智能家居（家電）控制終端來操控不同的接入設備。

例如：智能語音與智能家居（家電）綜合遙控器（或手機APP）的結合，對電視、空調、冰箱、插座等智能家居（家電）進行操作。首先對綜合遙控器（或手機）說出定製喚醒詞，讓其處於等待指令狀態，然後開始語音語義交互，最終的交互結果由遙控器（或手機APP）發送給相應的設備。

（2）通過喚醒詞直接操控智能家居（家電），不同設備可定製不同的喚醒詞。

例如：需要操控智能電視時，可以通過特定喚醒詞喚醒電視，直接對其下達換臺、搜節目、調整音量等指令。

業務服務

業務定製

爲更好的讓語音服務滲透各類型的應用中，靈犀雲提供的語音合成和語音識別等服務能支持定製（需另外商談收費標準），定製的範圍包括但不限於：

靈犀雲智能語音雲平臺產品白皮書（摘要）