研读Speech separation is the task of separating target speech from background interference

原創

2020-06-29 02:11

摘要：

语音分离是从带背景干扰的语音中抽取目标语音的任务。传统的，语音分离是信号处理问题的研究课题。最近的一些方法将语音分离当做有监督学习研究课题，基于训练数据获得语音、说话人和背景噪声的区分性模式。在过去十年里提出了许多有监督分离算法。特别地，近期的基于深度学习的有监督语音分离显著提升了语音分离效果。本文综述性描述最近几年基于深度学习的有监督语音分离的进展。首先，介绍语音分离的背景以及有监督分离的表达式。讨论有监督分离的三个重要组成部分：学习机器、训练目标和声学特征。综述中大部分文章是基於单麦克方案，包含语音增强（语音和非语音的分类）、说话人分离（多个说话人的分类）、语音去混响，多麦克方案也是这些。本文讨论了有监督学习特有的泛化问题。本文从历史的视角探讨研究进展是如何产生的。另外，我们讨论了一些概念问题，包括目标源的组成是什么。

第一部分 介绍

语音分离的目标是从背景干扰中分离出目标语音。语音分离是信号处理的基础任务，具有广泛的应用，包括听觉恢复术、手机通讯以及鲁棒自动语音和说话人识别。人类听觉系统具备从多混合源中提取单一声音源的非凡能力。在鸡尾酒宴会的声学环境中，一个人可以追踪固定目标人的声音，虽然周围有很多人声干扰和噪声干扰。语音分离任务也称之为“鸡尾酒宴会问题”，Cherry于1953年提出。

语音分离是声源分离的特例。感觉上，源分离对应听觉流分离，听觉感知领域的扩展研究主题。最早针对流分离的系统性研究是Miller和Heise，他们提出xx。

我们人类处理语音分离的能力如何？噪声环境下度量人类语音感知能力的一种方式是测量言语感受阈（speech reception threshold, SRT），即对于50%可懂值所需要的信噪比。

Miller通过加入各种tone、宽带噪声、其它人声干扰来度量对可懂值的影响。通过测试听众的字可懂值，结果如上图显示，对可懂值影响最大的是宽带噪声，其次是多个人声干扰。

语音分离分为单麦和多麦克阵列方案。单麦克的两个传统方案是语音增强（speech enhancement）和计算听觉场景分析（CASA）。语音增强分析语音和噪声的统计量，从带噪语音中估计出噪声，从而获得干净语音的估计。最简单也是使用最广的的语音增强方法是谱减法，从带噪语音的功率谱中减去噪声的功率谱。为了估计背景噪声，语音增强假设背景噪声是平稳信号，即谱属性不随着时间变化，或者相对语音而言是稳定的。CASA是基于听觉场景分析的感知原则，探索一些其它维度线索，如pitch和onset。

基于多麦克的阵列方案是另一种思路。波束形成或者说空间滤波，通过核实的阵列配置，来增强不同方向的信号，抑制其它方向的干扰。最简单的波束形成是delay-and-sum技术方案。主要是利用相位差来削弱其它方向信号。噪声衰减的数量依赖阵列的空间尺寸和配置，通常来说随着麦克风个数和阵列长度的增加衰减越快。显然，空间滤波不能解决目标源和干扰源同向的情况。而且，波束形成在混响环境下效果会下降，因为混响会污染声源的方向。

近年来一种新的语音分离方案被提出，即基于有监督学习方案。有监督语音分离的原始公式来源于CASA领域的时频掩码(TF masking)。作为分离的一种方案，时频掩码应用一个二维的mask作用于带噪语谱图，从而获得干净语谱图的目的。CASA的主要目标是理想而知掩码（IBM），用于表征目标信号在T-F单元上的权重。听觉研究表明，不论是对于正常听觉人群还是听觉受损人群，理想二值掩蔽可以显著提升噪声环境的语音可懂度。将IBM作为计算目标，语音分离成为一个二分类问题，IBM就成了预测目标，可以通过有监督方案进行学习。

第二部分 classifiers and learning machines

近十年来，深度神经网络在多个领域取得突破性进展，包括语音分离领域。本章节简要介绍有监督语音分离所用深度神经网络的类别：前馈多层感知器、卷积神经网络、递归神经网络以及通用对抗网络。

第三部分训练目标

在监督性语音分离任务，对于学习和泛化来说，定义一个合适的训练目标是至关重要的。主要有两组训练目标，masking-based和mapping-based. 基于masking的目标描述了安静语音和背景干扰的时频关系，基于mapping的目标对应安静语音的谱表征，是一种回归方法。

在讨论目标之前，先介绍下语音分离任务的评价标准。依据研究领域的不同，度量标准有好几类，有两大类：signal-level和perception-level。信号层面，标准主要度量信号增强的度或者干扰衰减的度。除了信噪比，还有语音失真度、噪声残留这些单独可测量的。比较全面的度量指标有SDR (source-to-distortion ratio), SIR (source-to-interference ratio), and SAR (source-to-artifact ratio)。

语音分离系统的输出最终是送入用户的耳朵，因此，学术界尝试将听众的感受进行量化。可懂度和质量是其中两类。

。。。

对于语音质量，PESQ（perceptual evaluation of speech quality）是权威标准，由国际电信联盟制定。

第四部分特征

Ideal binary mask
Target binary mask
Ideal ratio mask
Spectral magnitude mask
Phase-sensitive mask
Complex ideal ratio mask
Target magnitude spectrum
Gammatone frequency target power spectrum
Signal approximation

第五部分单通道分离算法

Speech enhancement
Generalization of speech enhancement algorithms
Speech dereverberation and denoising
Speaker separation

第六部分阵列分离算法

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

研读Speech separation is the task of separating target speech from background interference

研讀Speech separation is the task of separating target speech from background interference

windows系統部署python Deep Learning平臺

win10-虛擬機-Ubuntu-TensorFlow

Ubuntu 14.04.2 系統無線網絡不穩定問題

研讀何凱明大作Momentum contrast for unsupervised representation learning

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結