PLDA对说话人身份与多重滋扰条件联合建模的推广

A Generalization of PLDA for Joint Modeling of Speaker Identity and Multiple Nuisance Conditions

 

PLDA对说话人身份与多重滋扰条件联合建模的推广

uciana Ferrer1,Mitchell McLaren2

1Incituto de Investigacio'n en Ciencias de la Computacio'n,CONICET-Universidad de Buenid Aires,Buenos Aires,Argentina

2Speech技术研究实验室,SRI国际,美国门洛帕克

[email protected],mitchell.mclaren @ sri.com

摘要

概率线性判别分析(PLDA)是计算说话人识别系统中得分的主要方法。该方法将表示每个音频样本的向量建模为三个项的总和:一个取决于说话者身份,一个用于模拟说话者内部的变异性另一个用于模拟任何剩余的变异性。假设最后两个术语在样本之间是独立的。我们最近提出了PLDA方法的扩展,我们将其称为联合PLDA(JPLDA),其中第二项被认为取决于数据中存在的有害条件的类型(例如,语言或渠道)。当将语言作为滋扰条件时,所提出的方法为多语言说话人识别带来了显着的收益。在本文中,我们提出了这种方法的概括,允许多个讨厌的术语。我们使用语言和描述样本声学特征的几个讨厌条件来显示结果,并证明在模型中共同包括所有这些因素导致比仅包括语言或声学条件因素更好的结果。总体而言,对于标准PLDA方法,我们在各种系统和测试条件下获得了5%至47%的检测成本函数的相对改进。

索引术语:说话人识别,概率线性判别分析

1.简介

PLDA [1]是说话人识别的主要评分技术[2,3,4,5,6]。它假设每个样本由固定维度的特征向量表示,并且该向量可以被建模为三个项的总和:一个取决于样本类的术语,一个用于模拟类内变异性的术语,并假设它是独立的样本,以及模拟任何剩余变异性的最终术语,并且在样本之间也是独立的。这些假设意味着来自同一类别的所有样本彼此独立,并且一旦知道了类别,也与其他类别的样本无关。对于许多训练数据集而言,这种假设是不正确的,其中样本来自一小组不同的条件,如麦克风,语言或语音风格。在这些情况下,对应于相同条件的样本很可能是统计依赖的。

在最近的出版物[7]中,我们提出了PLDA的扩展,其中模拟类内变异性的术语被认为取决于描述样本的有害条件的标签。我们在[8]中表明,当使用语言作为讨厌条件时,这种方法在多语言说话人识别方面获得了巨大的收益。在这项工作中,我们扩展了所提出的方法,以允许多个有害的术语对应于不同的条件,这些条件被假定为独立地和附加地影响代表样本的向量。我们提出了一种用于模型训练的启发式算法,该算法易于实现,有效且计算速度快,以及不需要在测试期间了解有害条件的评分程序。

文献提出了一些方法,以一种使其参数依赖于条件标签的方式推广PLDA。该家族最简单的方法是针对每种情况训练单独的PLDA模型,如[9]所提出的。尽管如此,在本文中,作者表明,汇集来自所有条件的数据,如[10]所提出的,导致比训练单独模型更好的性能。在由[11]提出的并列PLDA模型中,针对每个条件训练一个PLDA模型,但是通过强制对应于每个类的潜变量在所有条件下相同来绑定这些模型。当在人脸识别任务中在所考虑的条件(正面和轮廓)下观察训练数据中的每个类别时,该方法表现出优于标准PLDA的汇总训练数据。 [12]提出了类似的方法;但在这种情况下,混合成分在训练期间不会给出,而是取决于连续的元数据值。该方法通过在不同的信噪比(SNR)水平上向训练数据添加噪声来测试,与汇集所有数据以训练单个PLDA模型相比,产生增益。然而,当训练数据中的每个发言者仅在一小部分感兴趣的条件下(可能只有一个)或某些条件的训练数据少于其他人时,PLDA方法并不能很好地发挥作用[ 8],这两种都是常见的训练场景。

 

我们在两个多语言说话人识别数据集上显示结果,一个由混音器数据[13]和另一个由LASRS数据组成[14],使用三个不同的系统来获得代表每个样本的向量。我们表明,当使用语言作为所有三个系统的滋扰条件时,JPLDA比标准PLDA方法有显着改进。这些结果强化了[8]中得出的结论,其中三种系统中只有一种用于实验。此外,我们还表明,通过为样本的麦克风,噪声,编解码器和混响特性添加有害术语可以获得额外的增益。

式。 但请注意,该等式中的最后一项不应该存在(该错误已由该论文的一位共同作者确认)。 对于这项工作,我们假设每个试验由一个登记和测试样本组成。

3.Joint PLDA

联合PLDA模型,最初在[7]中提出,然后在[8]中进一步开发和测试多语言说话人识别任务,是PLDA的推广,其中讨厌的变量不再被认为是独立于样本的,而是可能与样本共享(并列),这些样本对应于相同的滋扰条件。原始作品对应同样的滋扰条件。原始工作考虑了一个单一的滋扰条件,导出了这种情景的EM和评分公式。在这项工作中,我们进一步扩展模型以处理多种滋扰条件,假设它们的影响是独立的和附加的。

我们假设说话者内的可变性可以被分解为对应于不同的烦扰条件的N个术语,这些术语可以对应于例如样本中所说的语言,麦克风类型,噪声类型和水平,或任何其他特征。可

4.实验设置

在本节中,我们将描述训练和测试数据集以及我们实验中使用的不同说话人识别系统。

4.1。扬声器识别系统

我们比较了使用三种不同程序提取的载体上的不同PLDA技术。在所有情况下,我们使用语音活动检测系统(在[8]中详细描述)在提取表示每个样本的向量之前丢弃非语音帧。

UBM i-vector系统(ubmivs):这是一个传统的i-矢量系统,它使用20维度的mel频率倒谱系数(MFCC),附加增量和双增量,2048分量GMM作为通用背景模型(UBM) )和400维i矢量提取器。有关该系统的更多详细信息,请参阅[8]。

混合对齐系统(hybrivs):混合对齐框架[19]在混合条件下提供具有竞争力的说话人识别性能。该系统利用经过培训的DNN来预测3450个三电话状态,以提取80维瓶颈功能。这些语音丰富的瓶颈功能用于训练2048高斯的UBM,后来用于生成帧占用或输入音频的对齐。这些比对用于生成零阶统计量,并与附加有增量和双增量的20维MFCC相结合,以计算一阶统计量。统计数据用于训练400维的i向量子空间,从中提取i向量用于我们的PLDA实验。 DNN的训练数据包括Fisher,Switchboard和Callhome数据(关于DNN的更多细节可以在[20]中找到),而UBM则使用PRISM训练集的非降级信号进行训练。

扬声器嵌入系统(嵌入):扬声器识别的最新进展已经通过使用直接训练直接训练扬声器类的深度神经网络显示出显着的改进,然后提取富含的嵌入(低维和固定维向量)扬声器信息,来自网络中的隐藏层,用于后续后端分类[21,22]。我们在[23]中的工作被用于当前的研究,其中使用来自PRISM培训列表的非降级子集的56,000个音频文件中的大约3,200个发言者的数据训练嵌入网络,每个音频文件降级四次,四个不同降级类型(16倍降级)由噪声,混响,压缩和音乐组成。在统计池图层之后从第一个隐藏层提取512个维度的嵌入。这些床垫用于PLDA实验。

这三个系统产生的矢量使用线性判别分析(LDA)进一步转换为300个维度。使用与PLDA方法相同的数据训练LDA,如下所述。然后在训练或应用PLDA模型之前将矢量平均值和长度标准化[24]。

4.2.PLDA培训数据

所有PLDA方法的训练数据由完整的PRISM训练集[25]给出,其中包含通过在8,15和20 dB信噪比下添加嘈杂噪声来清洁混音器收集信号而产生的模拟噪声信号比率(SNR)和模拟混响信号是通过在不同的RT60混响时间为0.3,0.5和0.7的情况下将相同的清洁信号与不同的房间脉冲响应进行卷积而产生的。最后,在这个原始的PRISM训练列表中,我们添加了其他降级信号,这些信号是通过使用许多不同的编解码器对干净信号进行转码而创建的。这是SRI用于培训PLDA模型几年的数据。但是,在这种情况下,我们丢弃了一小部分训练样本,这些样本来自只有一两个发言者的语言,以及语言不可用或含糊不清的样本。所有降级数据都是英文版,只有一种类型的降级而降级:噪声,混响或编解码器失真。

训练数据标有五个令人讨厌的条件标签:(1)语言,(2)麦克风,(3)噪声,(4)混响和(5)编解码器。语言条件标签由样本中的语言给出。麦克风标签由收集标识符(交换机,Fisher等)和随集合提供的麦克风标签组合而成。噪声,混响和编解码器条件的标签由降级类型(噪声信号,房间类型或编解码器)和降级水平(RT或SNR)以及非降级信号的一个标签给出。表1显示了训练数据的统计数据。

4.3。测试数据

我们考虑四种测试条件,一种使用混合器数据,另外三种使用LASRS数据。

混音器测试数据由来自混音器集合[13]的电话样本组成,来自2005年至2010年NIST演讲者识别评估,来自未用于培训的演讲者。我们从21位发言者中包括119份阿拉伯语样本;来自47位发言者的200个俄语样本;来自38位发言者的309份泰语样本;来自163位发言者的827个中文样本;来自701位发言人的5,755个英文样本。通过选择相同数量的目标和冒充者同一语言和跨语言试验来创建试验,使得最终试验集是两种类型试验的平衡联合。此外,同一语言试验被创建为英语和非英语试验的平衡结合。最后一组试验,我们称之为Mixer Cln-mic All-lang(Cln代表干净,指的是样品不会降解电话样品,尽管它们可能有不同类型的“野生”降解),包括11,522个目标试验和858,119个冒名顶替试验。

LASRS测试数据由来自双语,多模型语音语料库的样本组成[14]。语料库由大约100名来自三种语言的双语人士组成:阿拉伯语,韩语和西班牙语。要求每位发言者用英语和母语执行一系列任务。每个任务使用七个录音设备(摄像机,台式机,录音室,全向和三个电话麦克风)录制,并在不同日期录制的两个单独的会话中重复。对于我们的实验,我们使用来自所有发言者的对话数据。通过从第一个记录的会话中注册数据并在两种口语中的每一种语言中测试第二次记录的会话来创建试验。这导致总共大约390万个冒名顶替者和34,000个(K)目标试验。这就是我们所说的All-mic All-lang条件。我们还对试验进行了分组,仅包括三个更清洁且与培训中看到的有些相似的麦克风(两个电话和工作室麦克风)。这个子集,我们称之为Cln-mic All-lang,包含大约715K冒名顶替者和6.2K目标试验。最后,我们创建了另一个子集,仅包括英语和英语试验。这个子集,我们称之为All-mic Eng,包含783K冒名顶替者和7.8K目标试验。

5.Results

图1显示了所有三个矢量提取程序和所有四个测试集的目标概率为0.01,未命中成本为10,误报成本为1 [26]的最小检测成本函数(DCF) 。对于所有方法,等级Ry设置为200。对于FPLDA,使用混频器数据将Rx等级优化为40。最后,对于JPLDA,我们在所有情况下都使用可用于每种滋扰条件的最大等级,该条件由该条件的标签数量(表1中所示)减去1.这些等级未被调整。对于两个说话者假设的所有条件,相同条件的先验概率被设置为0.1(参见第3.2节)。这在Mixer数据上进行了轻微优化。然而,高于0.05和低于0.5的值给出了所有JPLDA系统的类似性能。

结果表明,带有语言标签的JPLDA为两个Cln-mic全能测试集带来了巨大的收益,这些测试集包括相对干净且与训练中看到的相匹配的所有语言和麦克风。这与我们在[8]中为ubmivs系统得到的结论相同。在这里,我们表明这个结论适用于所有三个测试系统。对于这两个测试集,添加其他烦扰条件的收益很小。这可能是由于大多数训练数据与这些测试集中的声学条件相匹配的事实。

当测试装置包括比训练中更嘈杂,更失真或不匹配的麦克风时,带有语言标签的JPLDA的收益变得更小,并且在模型训练期间添加其他烦扰条件的优势变得更加明显。总的来说,我们看到同时考虑语言和声学条件的模型总是与分别考虑语言或声学条件的两个模型中的最佳模型相似或更好。

6。结论

我们提出了PLDA的概括,它可以根据常见的滋扰条件对样本之间的依赖关系进行建模。这种新模式,我们称之为联合PLDA(JPLDA),因为它能够共同模拟说话人身份和感兴趣的滋扰条件,最近在使用语言作为滋扰条件时,在多语言说话人识别任务中表现优于PLDA。 。在这项工作中,我们进一步概括了允许多种滋扰条件的方法,并提出了一种简单快速的训练算法,以及在测试时不需要了解有害条件标签的评分程序。结果表明,与标准PLDA和仅使用语言或声学条件的JPLDA相比,语言和一组声学条件的联合建模可获得最佳结果。进一步的工作包括研究在训练数据没有这些标签时自动估算条件标签的方法,将评分公式推广到多个输入样本,并为多种滋扰条件推导出EM算法。  

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章