与文本内容无关的说话人识别概述——从特征到超矢量

摘要:

      本文主要是对自动说话人识别技术的概述,重点强调文本无关的说话人识别技术。说话人识别已经研究了几十年。我们给出了经典和先进的说话人识别方法。我们从自动说话人识别基础开始谈起,主要从特征提取到说话人建模。我们阐述了先进的计算科技来解决鲁棒性和session avariability 。近来提出的从矢量到超矢量为说话人识别展开了一个全新的领域并且代表着技术发展趋势。我们同时也讨论了目前的说话人评估系统评估方法和发展。最后对说话人识别未来的发展方向做了讨论。

正文

 第一部分

   说话人识别就是通过声音识别出哪个人发出的这个声音。没有两个人的声音完全一致。一方面由于生理特征的不同,例如声道形状、喉大小以及其他发音器官的不同,另一方面由于每个说话人的发音习惯的不同,例如方言、说话的韵律、腔调、习惯性用词选择等等。先进的说话人识别系统在利用第一个方面的特征识别的同时,使用大量的特征描述第二个方面的因素对发音的影响,目的在于达到更精准的识别。说话人识别的一个重要应用是在司法部门。包括两个罪犯之间的电话通信。近几年的热点就是整合说话人识别到半自动语音分析系统。

  不仅司法部门,普通人也受益于说话人识别技术。根据预测,未来,说话人识别技术将被整合到以手机服务为主的操作中,这样说话人识别技术和语言识别技术可能会取代人类手动操作手机。一个例子就是通过手机自动进行密码重设。这个自动语音服务的优点是显而易见的——比起人类的操作通过数以千计的电话服务,自动语音服务有更大的工作吞吐量。事实上,过去几年的说话人识别技术的研究主要集中在电话语音应用。

   除了电话语音应用,还有电视广播,电话会议,活动中的视频裁剪等方面的应用这些语音数据。从这些数据中提取元数据——说话主题,参与的说话人姓名,说话人性别,能够进行信息的自动化搜索和检索。speaker diarization,也就是什么人什么时候说的,目的在于从不同的参与者中提取出轮流说话的次序,是传统说话人识别的扩展,主要应用于多说话人的语音处理中。

  在司法方面和speaker diarization 方面的说话人应用中说话人对于识别时不配合的。另一个方面,在电话语音服务和其他的可控途径下的语音服务,说话人识别应用的使用者是配合的。另一方面,说话人识别系统可以分为文本相关和文本无关的,在文本相关系统中识别的短语是固定的,之前给定的。例如,让用户随机朗读一系列数字。在文本无关的说话人识别系统中,对于哪个说话人说什么语句没有任何限制,因此在参考(在训练中使用的说话人语句)和测试(实际说话人使用的语句)可能是完全不同的内容,说话人识别系统必须考虑 语音的错误匹配(take this phonetic mismatch into accout).文本无关的说话人识别系统对于下面两个工作面临更大的挑战。

   通常讲,在说话人识别系统的精准性,拼音多样性(phonetic variability)是其中的一个重大困难.另一个比较大的困难就是发音环境、技术条件(半导体、信道影响),以及说话人自身因素如健康情况,心情或者年龄等的变化。通常来讲,一个说话人两端录音的任何不同都可以称之为session variability.Session Variablity通常被描述为训练和测试环境的不匹配(mismatch)。这也是目前为止说话人识别技术中最有挑战性的问题。

    该文章描述了从1980s到目前为止具有代表性的说话人识别技术的概述。另外,重点介绍目前代表性技术 从传统的基于矢量的说话人模型到超矢量模型的转换。本文主要为开始学习说话人识别的人做一个研究问题和解决方案方面的概述。同时对语音科学家快速熟悉这一领域目前趋势有用。阅读本文前提是有信号处理和模式识别的基础。

   第二部分 说话人识别基础

  第三四部分阐特征提取和说话人模型建模规则(principle)

  第五部分介绍鲁棒性方法来处理生活噪音以及session variability mismatched condition 

  第六部分介绍目前火热的超矢量分类和他们的session compasation(补偿)

 第七部分介绍说话人识别效果评估 和give pointers to software packages 

 第八部分 罗列这个领域未来的趋势

  第九部分 结论

第二部分

自动说话人系统的组成

        图1.典型说话人识别系统组成。在注册模块,说话人模型在之前创建的背景模型下产生;在识别模块,假设模型和背景模型进行匹配,背景分数用来归一化初始分数

2.1特征提取

语音信号中包含了很多与说话人判决无关的特征,一个理想的说话人识别的特征有以下特点:

   .。说话人之间的变量明显,说话人自身变量不明显

    。对于噪音和信道扭曲有鲁棒性

    。在语音中出现的频繁并且比较自然 occur frequently and naturally

    。在语音信号中容易检测

    。很难被模仿

   。不受说话人的健康和声音的长期变化的影响(年龄变化...)

   特征的数量应该相对较少。传统的随机模型例如GMM(高斯混合模型)不能够处理高维数据。为了得到可靠的概率密度分布,高斯混合模型的训练样例的数量会随着特征的数量呈指数性增长,这就是“高维诅咒”。在低维度上的计算可以很好的节省计算济源。

   对于特征有不同的分类方式,如图2.从人类语音器官生理直译的角度分类的话,可以分为1)短时谱特征 2)声源特征 3)频谱时间特征(spectro-temporal)4)韵律特征 5)高级特征。短时谱特征如名字所示,根据每20ms-30ms的短时帧中计算得到。通常被描述为短时频谱包络,这是个与声色相关的声学特征。声色,也就是 supralaryngeal声道的共振特性。声源特征,就是声音源头的特性(声门)。韵律和频谱时间特征可以跨越几十或者数百毫秒,例如包括腔调和韵律。最后高级特征,目的在于捕捉说话人会话级别的特征,如使用语句的特征(如感叹词的使用 “uhhh-huh” 习惯性短语的使用“you konw ”:oh yeah)

   那么该用哪个特征呢?这取决于目标应用,计算资源以及所获得的说话人数据数量(both in developent and in run-time (开发阶段和运行阶段))以及说话人是否配合。刚开始做研究的 人员,可以从短时谱特征开始,因为他们比较容易计算并且识别效果较好。韵律和高级特征有更好的鲁棒性,但是识别能力较弱并且较容易模仿。例如,专业模仿人员通常都会改变被模仿者的音高轮廓(pitch contour)高级特征同时需要考虑比较复杂的前端,例如声学语音识别(automatic speech recognizer)总之,并不存在最好的特征,特征的选择无非就是说话人识别、鲁棒性、可实践性之间的平衡。

 

   2.2 说话人模型

    通过使用说话人训练语音中提取的特征矢量,说话人模型会被存储到系统数据库。在文本相关的说话人识别的模型中,模型中的语音是详细指明的,并且特征之间存在时间依赖性(不知是否可以理解为语音出现时间间隔一致)。文本相关的说话人确认和语音识别在模式匹配过程中有相似之处(do share similarities) 并且二者可以结合起来。

    在文本无关的模型中 经常用语音波形的特征分布进行建模而不是时间依赖性建模(temporal dependencies).注意,在与文本相关的说话人识别中,我们可以将测试和训练语音进行时间对齐,因为他们包含相同的的发音序列。然而,在文本无关的识别中,在测试和训练语音的帧之间几乎没有相关性,在帧级别上的对齐几乎不可能,因此将语音信号切分成音素或者比音素大的级别的(韵母 声母 ..)可以用在前期处理中。还有,说话人模型可在音素级别上构架,这个方法在XXXX论文提到。也可以使用数据驱动单元替代严格的语言音素作为切分单元。

    经典说话人模型可以被划分为模板模型和随机模型,也称为参数模型和非参数模型。在模板模型中,测试数据和训练数据的矢量特征彼此相互比较,假设测试数据是训练数据的不完整的复制品,数据的失真(扭曲)表示他们的相似度。Vector Quantization(矢量化)是文本无关和文本相关说话人识别模板模型中的代表性的例子。在随机模型中每个说话人以未知概率源的形式建模,有固定的概率密度函数,训练阶段就是从训练样本中估计这些概率密度函数的参数。匹配阶段就是计算测试语音和模型的相似度。高斯混合模型和隐马尔科夫模型是目前最为流行的文本无关或者文本相关的说话人识别模型。

    根据训练范例,,模型可以分为生成模型和判决模型,如GMM VQ这些生成模型对每个说话人估计特征分布,相反的,如ANN SVMs这些判决模型主要是对说话人边缘建模。进一步讨论参照XXX论文。

    总之,说话人识别的模型主要有VQ ,GMM ,SVM.在运行阶段,一个未知声音表示为特征矢量或者超矢量的集合——超矢量就是级联了很多矢量,然后与目标说话人模型对比估计。

3.特征提取

3.1短时谱特征

  由于发音器官的运动产生语音,因此语音信号是次序变化的,因此,需要信号切分成20-30ms的一段一段信号,在每一段中建设信号是持续稳定的,每一段称之为一帧,频谱特征矢量就是从每一帧中提取出来的。

通常,每一帧都需要进行预加重和加窗处理,预加重就是提升声音频率,主要是加重由于声门导致的向下的低密度的斜频谱

另一方面,加窗是因为离散傅里叶变换的有限长度影响。对于细节,参考XXX论文。

实践中,窗函数的选择没有严格标准,尽管帧的长度是固定的,同步声高分析也有人研究,如XXX论文。在XXX论文中显示使用这种技术识别率会降低,然而在有噪音的情况下又会提升识别率。声高依赖模型在研究在XXX论文。

     快速傅里叶变换是离散傅里叶变换的一个快速应用,将信号转换成频率成分。基于快速傅里叶变换分解信号的方式有基于非谐波的,非周期性方程的,和源自独立成分分析(ICA)的基于数据驱动的。ICA研究基础论文XXX。但是,离散傅里叶变换在在实践中仍然是最有效和最简单的方式。通常在变换中幅度谱会保留下来,因为有相位谱没有什么重要性,但是在XXX论文中相位谱也有很重要的信息。

   离散傅里叶变换的幅度谱的形状如图3所示,称之为包络,包含声道的共振峰特性,并且这个特性包含说话人的重要信息。频谱包络的一个简单模型对相邻的频带使用带通滤波器来做能量整合,从心里声学研究启发,给窄带分配更多的滤波器获取更高分辨率来表示更低的频率范围。(???)

尽管窄带能量值被直接用作特征,在XXX论文,可以通过其他的变换使得维度进一步减少,称为梅尔倒谱系数。

在说话人识别中短时谱特征主要是提取:MFCC、LPCC、LSF、PLP 下面详细介绍这些特征的概念和计算

MFCC :梅尔倒谱系数

LPCC :线性预测倒谱系数

LSF :线性频谱频率

PLP:感知线性预测

各个特征之间可以相互补足结合提升识别准确率,有研究表明,信道补偿比基本的特征选择更重要

信道补偿:

3.2 声音源特征

 声源特征主要包含声门振脉冲形状和基频。基频就是声带振动快慢,3.4着重介绍。其他与声门脉冲形状相关的特征如声带张开程度,持续时间,关闭时间,对声音质量都有影响,可以称之为语气、喘息、吱响和抑制等。假设声门和声道独立,声道参数可以在线性预测模型中估计,使用逆滤波器波形获取源信号参数估计。另外一个方法就是声带闭合阶段协方差分析,这会提升声道评估,但是嘈杂环境中的闭合声道评估是很困难的,例如,图四是用简单的逆滤波器的方法显示信号线性预测残差和声门流动(flow)

逆滤波器信号的特征也可以使用自相关的神经网络方法提取。其他方法使用参数声门流动(glottal flow)模型参数,倒普系数,和高阶统计量也可以。

  有论文指出声源特征没有声道特征的识别性高,但是融合这两个特征可以提升识别准确率。XXX论文也指出训练声源特征的数据完全可以少于训练声道特征的数据。这个可能的解释就是升到特征依赖于语音内容因此需要足够多的数据训练,而声源特征并不依赖语音内容,故而需要较少数据训练。

3.3时间频率特征

  时间频率描述了 共振峰过渡和能量调制细节,包含了说话人本身的特定信息。 一个通用的合并时间信息到特征的方式有同感一阶和二阶倒数估计,称为delt△和double-delt △平方,以帧为单位计算基础系数的相邻特征系数。(13——>39的MFCC)还有两个方法可能鲁棒性更好,适用于线性回归或者正交多项式。同时还有时间频率主成分原理和数据驱动的时间过滤器。

调制频率——调制频率代表子带幅度包络的频率内容,潜在包含了说话速率和风格,

时间离散余弦变换

FM-base 

3.4韵律特征

基频的确定

3.5 高级特征、

4.说话人模型:经典方法

41.VQ矢量化

4.2 GMM 混合高斯模型

4.3 SVM 支持向量机

4.4其他方法 

 ANN

4.5 融合

5说话人识别的鲁棒性

5.1Voice activity detection 声音活动检测

5.2 特征归一化

5.3说话人模型补偿

5.4分数归一化

6. 超矢量:近来研究趋势

6.1什么是超矢量

6.2 GLDS kernel SVM

6.3 高斯超矢量 SVM

6.4 MLLR超矢量SVM 

6.5高级超矢量SVM

6.6 归一化超矢量 SVM 

6.7 因子分析技术

6.8 哪个超矢量技术我们应该使用?

7.识别性能评估和常用软件包

7.1性能评估

7.2 说话人识别软件包

 ALIZE Toolkit , Matlab Octave HTK Focal toolkit Torch

8.说话人识别技术展望

说话人识别中最具影响力的新技术:

UBM 

分数归一化、校验、合并 (Score normalization,calibration,fusion)

Sequence Kernak SVMs(支持向量机的序列核函数)

在SVM中使用韵律和高级特征(Use of prosodic and high-level features with SVM)

语音识别中的发音归一化(Phonetic Normalization using ASR)

明确会话变量模型和补偿(Explicit session variability modeling and compensation)

虽然这些方法在说话人识别中很有效,但是这些方法需要大量数据驱动和大量数据来训练背景模型,用于分数归一化的队列模型和会话模型以及说话人变量。这些数据需要标注和按照一定方式标注,这需要大量人工。对于分割出哪些数据用于训练UBM模型,会话模型和分数归一化是非常重要的,如果分割数据的情况不满足运行环境要求,那么识别准确率会大幅度下降,甚至到达不能接受的水平。

 因此,将这些技术用于实践的关键在于使得这些方法对于数据集的选择不那么敏感。并且这些方法的实践也需要大量的计算资源。还有就是目前技术训练和测试就需要几分钟,在实时决策系统使用时有挑战性的。需要进一步发现短时语音训练和测试的方法。长数据处理的方法不一定适用于短数据任务。

国际说话人评测,主要关注technical  error sources,主要就是训练和测试信道的错误匹配(在训练和测试中使用不同的麦克风材料),例如感情,器官病症,年龄,注意力程度的影响。此外,还有语音模仿等问题。这就衍生出一个新的领域,抵制声音生物识别技术的入侵

目前主要的技术进步在分类器设计和信道补偿,主要依赖于短时谱特征,尽管时间谱,韵律和高级特征都是非常重要说话人识别特征,但是我们还没在这方面有所突破。仅仅将他们作为对短时谱的补充。这也是未来研究的热点,如何在不计算大量数据的情况下从时间谱和韵律特征中获取高级识别特征。如何从语音信号中选取有代表性的说话人识别特征仍然面临巨大挑战。

9.总结

本文介绍与文本无关的说话人识别技术,在有限制条件下识别率挺高,但是有外在不利因素时如错误匹配测试数据和训练数据、有限的训练数据、不平衡文本、背景噪音、不配合使用者情况下识别率很低。鲁棒性的技术如特征提取、特征归一化、模型域补偿、分数归一化都是必须的。说话人识别国际评测中呈现了先进的技术已经解决了很多挑战:文本依赖性、信道影响、说话持续时间、交叉性谈话。然而,很多问题仍待解决,如与人相关的错误语音源(human-related error sources),系统实时性,说话人识别分数的司法直译。

感谢

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章