語音質量評價方法-【音頻質量專題】

主要內容：

1.信噪比(Signal-to-Noise Ratio，SNR)

2.分段信噪比(Segment Signal-to-Noise Ratio，SegSNR)

3.PESQ(Perceptual Evaluation of Speech Quality)

4.對數似然比測度（Log Likelihood Ratio Measure,LLR）

5.對數譜距離（log spectral distance，LSD）

6.可短時客觀可懂(Short-Time Objective Intelligibility,STOI)

7.加權譜傾斜測度(Weighted Spectral Slope,WSS)

8.感知客觀語音質量評估(Perceptual Objective Listening Quality Analysis,POLQA)

部分內容來源於網絡和書籍，在此先表感謝，因作者才疏學淺，偶有紕漏，望不吝指出。本內容由靈聲訊音頻-語音算法實驗室整理創作，轉載和使用請與“靈聲訊”聯繫，聯繫方式：音頻/識別/合成算法QQ羣（696554058）

1.信噪比(Signal-to-Noise Ratio，SNR)

SNR一直是衡量針對寬帶噪聲失真的語音增強算的常規方法。但要計算信噪比必需知道純淨語音信號，但在實際應用中這是不可能的。因此，SNR主要用於純淨語音信號和噪聲信號都是己知的算法的仿真中。

信噪比計算整個時間軸上的語音信號與噪聲信號的平均功率之比。

2.分段信噪比(Segment Signal-to-Noise Ratio，SegSNR)

由於語音信號是一種緩慢變化的短時平穩信號，因而在不同時間段上的信噪比也應不一樣。爲了改善上面的問題，可以採用分段信噪比。

3.PESQ(Perceptual Evaluation of Speech Quality)

2001年2月，ITU-T推出了P.862 標準《窄帶電話網絡端到端語音質量和話音編解碼器質量的客觀評價方法》,推薦使用語音質量感知評價PESQ算法，該建議是基於輸入-輸出方式的典型算法，效果良好。

PESQ算法需要帶噪的衰減信號和一個原始的參考信號。開始時將兩個待比較的語音信號經過電平調整、輸入濾波器濾波、時間對準和補償、聽覺變換之後, 分別提取兩路信號的參數, 綜合其時頻特性, 得到PESQ分數, 最終將這個分數映射到主觀平均意見分(MOS)。PESQ得分範圍在-0.5--4.5之間。得分越高表示語音質量越好。

4.對數似然比測度（Log Likelihood Ratio Measure,LLR）

阪倉距離測度是通過語音信號的線性預測分析來實現的。ISD基於兩組線性預測參數(分別從原純淨語音和處理過的語音的同步幀得到)之間的差異。LLR可以看成一種阪倉距離（Itakura Distance,IS），但IS距離需要考慮模型增益。而LLR不考慮模型增益引起的幅度位移，更重視整體譜包絡的相似度。

5.對數譜距離（log spectral distance，LSD）

對數譜距離的定義

6.可短時客觀可懂(Short-Time Objective Intelligibility,STOI)

0-1範圍，值越大，可懂度越高

7.加權譜傾斜測度(Weighted Spectral Slope,WSS)

WSS值越小說明扭曲越少，越小越好，範圍

8.感知客觀語音質量評估(Perceptual Objective Listening Quality Analysis,POLQA)

POLQA (感知客觀語音質量評估)，是一個技術升級，它能夠覆蓋最新的語音編碼和網絡傳輸技術，對於3G，4G/LTE和VoIP網絡有了更高的準確度。POLQA是PESQ的繼承者（ITU-T P.862建議書）。POLQA避免了當前P.862型號的弱點，並且擴展到處理更高帶寬的音頻信號。進一步的改進針對具有許多延遲變化的稱爲信號和信號的時間的處理。與P.862類似，POLQA支持普通電話頻段（300-3400 Hz）的測量，但此外它還具有第二種操作模式，用於評估寬帶和超寬帶語音信號中的HD-Voice（50-14000）赫茲）。POLQA還針對由具有嘴和耳模擬器的人造頭部在聲學上記錄的語音信號的評估。

ITU-T的全系列參考目標語音質量測量系列始於1997年的P.861（PSQM），2001年被P.862（PESQ）取代.P.862 後來補充了P.862.1的建議。（PESQ得分到MOS量表的映射），P.862.2（寬帶測量）和P.862.3（應用指南）。自2011年以來P.863（POLQA）生效。ITU-T第12研究組於2011年11月同意了P.863的另外兩個實施者指南。除了上面列出的完整參考方法外，ITU-T的客觀語音質量測量標準清單還包括P.563（無參考算法）

POLQA，類似於P.862 PESQ，是一種全參考（FR）算法，可對與原始信號相關的降級或處理過的語音信號進行評級。它將參考信號（講話者側）的每個樣本與劣化信號（收聽者側）的每個相應樣本進行比較。兩個信號之間的感知差異被評爲差異。感知心理聲學模型基於類似的人類感知模型，如MP3或AAC。基本上，在應用掩蔽函數之後，在頻域（在臨界頻帶中）分析信號。兩個信號表示之間的未屏蔽差異將被計爲失真。最後，語音文件中累積的失真被映射到MOS測試中通常的1到5質量等級。

POLQA是全參考算法，並且在對應的參考和測試信號的摘錄的時間對準之後逐個樣本地分析語音信號。POLQA可用於爲網絡提供端到端（E2E）質量評估，或表徵各個網絡組件。目前該算法還是受保護狀態，非公開，使用需購買，SDK由http://www.polqa.info/ 提供。

POLQA結果主要是模型平均意見得分（MOS），涵蓋從1（差）到5（優秀）的範圍。

具體參考請見：http://www.polqa.info/