摘要:
语音分离是从带背景干扰的语音中抽取目标语音的任务。传统的,语音分离是信号处理问题的研究课题。最近的一些方法将语音分离当做有监督学习研究课题,基于训练数据获得语音、说话人和背景噪声的区分性模式。在过去十年里提出了许多有监督分离算法。特别地,近期的基于深度学习的有监督语音分离显著提升了语音分离效果。本文综述性描述最近几年基于深度学习的有监督语音分离的进展。首先,介绍语音分离的背景以及有监督分离的表达式。讨论有监督分离的三个重要组成部分:学习机器、训练目标和声学特征。综述中大部分文章是基於单麦克方案,包含语音增强(语音和非语音的分类)、说话人分离(多个说话人的分类)、语音去混响,多麦克方案也是这些。本文讨论了有监督学习特有的泛化问题。本文从历史的视角探讨研究进展是如何产生的。另外,我们讨论了一些概念问题,包括目标源的组成是什么。
第一部分 介绍
语音分离的目标是从背景干扰中分离出目标语音。语音分离是信号处理的基础任务,具有广泛的应用,包括听觉恢复术、手机通讯以及鲁棒自动语音和说话人识别。人类听觉系统具备从多混合源中提取单一声音源的非凡能力。在鸡尾酒宴会的声学环境中,一个人可以追踪固定目标人的声音,虽然周围有很多人声干扰和噪声干扰。语音分离任务也称之为“鸡尾酒宴会问题”,Cherry于1953年提出。
语音分离是声源分离的特例。感觉上,源分离对应听觉流分离,听觉感知领域的扩展研究主题。最早针对流分离的系统性研究是Miller和Heise,他们提出xx。
我们人类处理语音分离的能力如何?噪声环境下度量人类语音感知能力的一种方式是测量言语感受阈(speech reception threshold, SRT),即对于50%可懂值所需要的信噪比。
Miller通过加入各种tone、宽带噪声、其它人声干扰来度量对可懂值的影响。通过测试听众的字可懂值,结果如上图显示,对可懂值影响最大的是宽带噪声,其次是多个人声干扰。
语音分离分为单麦和多麦克阵列方案。单麦克的两个传统方案是语音增强(speech enhancement)和计算听觉场景分析(CASA)。语音增强分析语音和噪声的统计量,从带噪语音中估计出噪声,从而获得干净语音的估计。最简单也是使用最广的的语音增强方法是谱减法,从带噪语音的功率谱中减去噪声的功率谱。为了估计背景噪声,语音增强假设背景噪声是平稳信号,即谱属性不随着时间变化,或者相对语音而言是稳定的。CASA是基于听觉场景分析的感知原则,探索一些其它维度线索,如pitch和onset。
基于多麦克的阵列方案是另一种思路。波束形成或者说空间滤波,通过核实的阵列配置,来增强不同方向的信号,抑制其它方向的干扰。最简单的波束形成是delay-and-sum技术方案。主要是利用相位差来削弱其它方向信号。噪声衰减的数量依赖阵列的空间尺寸和配置,通常来说随着麦克风个数和阵列长度的增加衰减越快。显然,空间滤波不能解决目标源和干扰源同向的情况。而且,波束形成在混响环境下效果会下降,因为混响会污染声源的方向。
近年来一种新的语音分离方案被提出,即基于有监督学习方案。有监督语音分离的原始公式来源于CASA领域的时频掩码(TF masking)。作为分离的一种方案,时频掩码应用一个二维的mask作用于带噪语谱图,从而获得干净语谱图的目的。CASA的主要目标是理想而知掩码(IBM),用于表征目标信号在T-F单元上的权重。听觉研究表明,不论是对于正常听觉人群还是听觉受损人群,理想二值掩蔽可以显著提升噪声环境的语音可懂度。将IBM作为计算目标,语音分离成为一个二分类问题,IBM就成了预测目标,可以通过有监督方案进行学习。
第二部分 classifiers and learning machines
近十年来,深度神经网络在多个领域取得突破性进展,包括语音分离领域。本章节简要介绍有监督语音分离所用深度神经网络的类别:前馈多层感知器、卷积神经网络、递归神经网络以及通用对抗网络。
第三部分 训练目标
在监督性语音分离任务,对于学习和泛化来说,定义一个合适的训练目标是至关重要的。主要有两组训练目标,masking-based和mapping-based. 基于masking的目标描述了安静语音和背景干扰的时频关系,基于mapping的目标对应安静语音的谱表征,是一种回归方法。
在讨论目标之前,先介绍下语音分离任务的评价标准。依据研究领域的不同,度量标准有好几类,有两大类:signal-level和perception-level。信号层面,标准主要度量信号增强的度或者干扰衰减的度。除了信噪比,还有语音失真度、噪声残留这些单独可测量的。比较全面的度量指标有SDR (source-to-distortion ratio), SIR (source-to-interference ratio), and SAR (source-to-artifact ratio)。
语音分离系统的输出最终是送入用户的耳朵,因此,学术界尝试将听众的感受进行量化。可懂度和质量是其中两类。
。。。
对于语音质量,PESQ(perceptual evaluation of speech quality)是权威标准,由国际电信联盟制定。
第四部分 特征
- Ideal binary mask
- Target binary mask
- Ideal ratio mask
- Spectral magnitude mask
- Phase-sensitive mask
- Complex ideal ratio mask
- Target magnitude spectrum
- Gammatone frequency target power spectrum
- Signal approximation
第五部分 单通道分离算法
- Speech enhancement
- Generalization of speech enhancement algorithms
- Speech dereverberation and denoising
- Speaker separation
第六部分 阵列分离算法