編解碼評價指標

通過衡量比較各種語音編碼器或語音編碼算法的性能指標來評價語音編碼器的好壞。

指標有:編碼速率、語音質量、頑健性、時延、計算複雜性、算法的擴展性等。對同一種算法,這些性能指標之間有矛盾性,必須根據實際情況進行取捨和折衷。

編碼速率:是語音編碼首要目的。直接關係到傳輸資源的有效利用和網絡容量的提高。有固定速率編碼器和可變速率編碼器。大部分編碼標準是固定速率編碼:保密電話0.8Kbps-4.8Kbps,原因是他的通信信道帶寬限定在4.8Kbps以下。數字蜂窩移動電話和衛星電話編碼器的編碼速率是3.3Kbps-13Kbps,它使數字蜂窩系統的容量可以達到模擬系統的3-5倍。蜂窩系統中常伴有信道編碼,使總的編碼速率達到20Kbps-30Kbps。普通電話網的編碼速率16Kbps-64Kbps,其中一類特別的編碼器爲帶寬編碼器,編碼速率爲48、56、64Kbps,用於傳輸50Hz-70Hz的高質量音頻信號,如會議電視系統,在固定速率編碼器中,有些編碼器採用特別技術,提高信道利用率,例如,語音插空技術利用語音信號之間的自然停頓傳送另一路語音或數據。

可變速率編碼是近年來的新技術。兩方通話40%時間是真正有聲音的,自然想法是通斷狀態編碼。通狀態對應有聲期,採用固定速率編碼;斷狀態對應無聲器,傳送極低編碼速率信息,甚至不傳任何信息。更復雜的多狀態編碼還可以根據網路負荷、剩餘存儲容量等外部因素調整其編碼速率。可變速率編碼包括兩個算法:有聲檢測,確定輸入信號是語音還是背景噪聲,難點是在於正確識別語音段的起始點,確保語音的可懂度,二是舒適噪聲合成(CNG),用於接收端重建背景噪聲,設計必須保證發送端和接收端的同步。可變速率編碼的典型應用是數字電路倍增設備、非實時的語音存儲和CDMA移動通信系統。

 

頑健性

通過取多種不同來源的語音信號進行編碼解碼,並對輸出語音質量進行比較測試的一種指標。例如:去不同發音人的語音、各種背景噪聲下的語音、用各種麥克風或不同頻響的放大器錄製的語音、非語音聲音。應用通信系統是,編碼器要適應各種各樣的情況。多級編碼解碼情況下的輸出語音質量,也是衡量編碼器頑健性重要指標。數字通信網中,既有模擬信號又有數字化壓縮信號,之間多次轉換,出現異步級聯多級編解碼的情況,語音質量可能下降明顯。對存在部分數據丟失的情況,語音編碼器頑健性的研究也有重要的意義。異步傳輸方式下(ATM),通信數據基元丟失很難避免。解決方法3種:替代法,插值法,嵌入式編碼。

 

時延:編碼器時延有以下4部分組成

算法時延,編解碼以幀爲單位進行,有時還要知道下一幀的數據,(前視),算法時延等於幀長和前視長度之和,氣質完全取決於算法,與集體實現無關。計算時延:編碼器的分析時間和解碼器的重建時間,值取決於硬件速度。通常可認爲計算時延略小於或等於幀長,保證下一幀數據到齊後,當前幀處理完畢。算法時延和計算時延之和稱爲單向編解碼器時延。複用時延:裝配時延,編碼器發送之前和編碼器解碼之前,必須將所有數據塊的所有比特裝配好。傳輸時延:離散型很大,取決於採用專用線還是共享信道。對於共享信道,常認爲傳輸時延和複用時延之和約爲一個幀長。

4部分之和爲單向系統時延,估計至少3個幀長。

交互式通信150ms就可感受到連續性受影響,最大可容忍時延爲400ms-500ms,超過此值,半雙工通信,對於有回聲的情況,單向時延不可超過25ms,否則要裝回聲抑制功能。

 

計算複雜度和算法的可擴展性

計算複雜度主要影響硬件實現的成本。算法可擴展性是一種編碼算法不僅能解決當前的實際應用,而且可以兼顧將來的發展,隨着運算器性能的增強,算法稍加修改可獲得更高的語音質量。

 

語音質量及其評價方法

編解碼後的語音質量受到很多條件的制約,例如編碼器速率的高低,環境噪聲的情況,傳輸信道誤碼影響,多重編解碼影響,不同發音者影響,不同語言影響。數碼率是非常定量的概念,而音質易受主觀因素的影響。

目前用於評價輸出語音質量的方法可分爲主觀和客觀兩種,主觀評價是在一個或一組評聽者對原始語音和失真語音(經編解碼獲得重構語音)進行對比試聽的基礎上,根據某種預先約定的尺度對失真語音劃分質量等級,主觀評價反映了聽者對語音質量好壞程度的一種主觀印象。語音主觀評價有很多種,可分爲音質評價和可懂度評價。音質直接反映評聽人對輸出語音質量好壞的綜合意見,包括自然度和可辨識說話人能力等方面;而可懂度則反映了評聽人對輸出語音內容的識別程度。音質高,一般意味着可懂度高,反過來不一定。

可懂度評價方法:判斷韻字測試(DRT),是衡量通信系統可懂度的ANSI標準之一。用於低速率語音編碼的質量測試。改進的韻字測試(MRT),也是評測通信系統的可懂度的ANSI標準之一。其他還有拼寫字母測試(SpAT)以及語音平衡字表法(PB)。

音質的評價方法有:

平均意見得分(MOS——,用於對語音整體滿意度或語音通信系統質量的評價。判斷滿意度測量(DAM)一種評價語音通信系統和通信連接的主觀語音質量和滿意度的評測方法。將直接途徑和間接途徑結合在一起進行主觀評價。直接途徑:評聽人對語音樣本的主觀感受,不依懶與人爲評價等級劃分,間接途徑:評聽人根據已有的評價標準,脫離開評聽人的主觀喜好來評分。

主觀評價準確但耗時耗費,基於客觀測度的語音質量客觀評價方法相繼提出,建立在原始語音信號於失真語音信號的數學對比基礎上。有時域測度,頻預測度,其他測度。時域客觀測度定義爲被測系統的輸入語音與輸出語音在時域波形上失真度。頻域客觀測度:採用譜失真測度方法,模仿人耳聽覺特性,測度結果儘量與主觀感受一致。具體測度方法:對數譜距離測度,LPC倒譜距離測度,Bark譜測度,Mel譜測度。還有相關函數法、轉移概率距離測度以及組和距離測度。

關於波形編碼的國際標準有ITU-T制定。有影響的混合編碼國際標準和地區性標準有ITU-T與數字蜂窩標準組織制定。

ETSI:歐洲電信標準學會

TLA-電信工業協會

RCP-無線電系統研發中心

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章