编解码评价指标

通过衡量比较各种语音编码器或语音编码算法的性能指标来评价语音编码器的好坏。

指标有:编码速率、语音质量、顽健性、时延、计算复杂性、算法的扩展性等。对同一种算法,这些性能指标之间有矛盾性,必须根据实际情况进行取舍和折衷。

编码速率:是语音编码首要目的。直接关系到传输资源的有效利用和网络容量的提高。有固定速率编码器和可变速率编码器。大部分编码标准是固定速率编码:保密电话0.8Kbps-4.8Kbps,原因是他的通信信道带宽限定在4.8Kbps以下。数字蜂窝移动电话和卫星电话编码器的编码速率是3.3Kbps-13Kbps,它使数字蜂窝系统的容量可以达到模拟系统的3-5倍。蜂窝系统中常伴有信道编码,使总的编码速率达到20Kbps-30Kbps。普通电话网的编码速率16Kbps-64Kbps,其中一类特别的编码器为带宽编码器,编码速率为48、56、64Kbps,用于传输50Hz-70Hz的高质量音频信号,如会议电视系统,在固定速率编码器中,有些编码器采用特别技术,提高信道利用率,例如,语音插空技术利用语音信号之间的自然停顿传送另一路语音或数据。

可变速率编码是近年来的新技术。两方通话40%时间是真正有声音的,自然想法是通断状态编码。通状态对应有声期,采用固定速率编码;断状态对应无声器,传送极低编码速率信息,甚至不传任何信息。更复杂的多状态编码还可以根据网路负荷、剩余存储容量等外部因素调整其编码速率。可变速率编码包括两个算法:有声检测,确定输入信号是语音还是背景噪声,难点是在于正确识别语音段的起始点,确保语音的可懂度,二是舒适噪声合成(CNG),用于接收端重建背景噪声,设计必须保证发送端和接收端的同步。可变速率编码的典型应用是数字电路倍增设备、非实时的语音存储和CDMA移动通信系统。

 

顽健性

通过取多种不同来源的语音信号进行编码解码,并对输出语音质量进行比较测试的一种指标。例如:去不同发音人的语音、各种背景噪声下的语音、用各种麦克风或不同频响的放大器录制的语音、非语音声音。应用通信系统是,编码器要适应各种各样的情况。多级编码解码情况下的输出语音质量,也是衡量编码器顽健性重要指标。数字通信网中,既有模拟信号又有数字化压缩信号,之间多次转换,出现异步级联多级编解码的情况,语音质量可能下降明显。对存在部分数据丢失的情况,语音编码器顽健性的研究也有重要的意义。异步传输方式下(ATM),通信数据基元丢失很难避免。解决方法3种:替代法,插值法,嵌入式编码。

 

时延:编码器时延有以下4部分组成

算法时延,编解码以帧为单位进行,有时还要知道下一帧的数据,(前视),算法时延等于帧长和前视长度之和,气质完全取决于算法,与集体实现无关。计算时延:编码器的分析时间和解码器的重建时间,值取决于硬件速度。通常可认为计算时延略小于或等于帧长,保证下一帧数据到齐后,当前帧处理完毕。算法时延和计算时延之和称为单向编解码器时延。复用时延:装配时延,编码器发送之前和编码器解码之前,必须将所有数据块的所有比特装配好。传输时延:离散型很大,取决于采用专用线还是共享信道。对于共享信道,常认为传输时延和复用时延之和约为一个帧长。

4部分之和为单向系统时延,估计至少3个帧长。

交互式通信150ms就可感受到连续性受影响,最大可容忍时延为400ms-500ms,超过此值,半双工通信,对于有回声的情况,单向时延不可超过25ms,否则要装回声抑制功能。

 

计算复杂度和算法的可扩展性

计算复杂度主要影响硬件实现的成本。算法可扩展性是一种编码算法不仅能解决当前的实际应用,而且可以兼顾将来的发展,随着运算器性能的增强,算法稍加修改可获得更高的语音质量。

 

语音质量及其评价方法

编解码后的语音质量受到很多条件的制约,例如编码器速率的高低,环境噪声的情况,传输信道误码影响,多重编解码影响,不同发音者影响,不同语言影响。数码率是非常定量的概念,而音质易受主观因素的影响。

目前用于评价输出语音质量的方法可分为主观和客观两种,主观评价是在一个或一组评听者对原始语音和失真语音(经编解码获得重构语音)进行对比试听的基础上,根据某种预先约定的尺度对失真语音划分质量等级,主观评价反映了听者对语音质量好坏程度的一种主观印象。语音主观评价有很多种,可分为音质评价和可懂度评价。音质直接反映评听人对输出语音质量好坏的综合意见,包括自然度和可辨识说话人能力等方面;而可懂度则反映了评听人对输出语音内容的识别程度。音质高,一般意味着可懂度高,反过来不一定。

可懂度评价方法:判断韵字测试(DRT),是衡量通信系统可懂度的ANSI标准之一。用于低速率语音编码的质量测试。改进的韵字测试(MRT),也是评测通信系统的可懂度的ANSI标准之一。其他还有拼写字母测试(SpAT)以及语音平衡字表法(PB)。

音质的评价方法有:

平均意见得分(MOS——,用于对语音整体满意度或语音通信系统质量的评价。判断满意度测量(DAM)一种评价语音通信系统和通信连接的主观语音质量和满意度的评测方法。将直接途径和间接途径结合在一起进行主观评价。直接途径:评听人对语音样本的主观感受,不依懒与人为评价等级划分,间接途径:评听人根据已有的评价标准,脱离开评听人的主观喜好来评分。

主观评价准确但耗时耗费,基于客观测度的语音质量客观评价方法相继提出,建立在原始语音信号于失真语音信号的数学对比基础上。有时域测度,频预测度,其他测度。时域客观测度定义为被测系统的输入语音与输出语音在时域波形上失真度。频域客观测度:采用谱失真测度方法,模仿人耳听觉特性,测度结果尽量与主观感受一致。具体测度方法:对数谱距离测度,LPC倒谱距离测度,Bark谱测度,Mel谱测度。还有相关函数法、转移概率距离测度以及组和距离测度。

关于波形编码的国际标准有ITU-T制定。有影响的混合编码国际标准和地区性标准有ITU-T与数字蜂窝标准组织制定。

ETSI:欧洲电信标准学会

TLA-电信工业协会

RCP-无线电系统研发中心

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章