VoIP技術(3)-語音編碼算法

轉自:http://blog.csdn.net/lhl_blog/article/details/8816506


4.語音編碼算法原理與應用

 

4.1 波形編碼算法基本原理

語音編碼主要有波形編碼和參數編碼兩大類。波形編碼就是根據語音信號波形導出相應的數字編碼形式。最早的波形編碼就是PCM,即ITU-T G.711A和ITU-T G.711μ,其編碼速率爲64kbit/s。

 

 

 

圖9 自適應量化器

PCM雖然能夠提供相當好的語音質量,但要佔用過高的網絡帶寬資源。這裏主要討論低速率的波形編碼算法,是利用了連續語音之間的相關性,主要採用的技術爲自適應量化器和自適應預測器。

爲了獲得僅可能大的量化信噪比,應該對小信號採用小的量化步長,對大信號採用較大的量化步長。使量化器範圍與輸入信號的動態範圍相匹配,減小量化噪聲。這就是自適應量化技術。自適應量化分爲兩類:前向自適應量化和後向自適應量化,目前常用的是後向自適應量化。

自適應預測的基本原理是根據語音波形的時間相關性確定預測係數,使差分信號的方差爲最小,時間相關性則以自相關函數來度量,如圖9所示。

4.2 參數編碼算法基本原理

語音的種類主要有兩種:濁音和清音。聲帶週期性地打開和關閉產生固定頻率的聲音,這個頻率就是濁音的音調;音調頻率男性爲50~250Hz,女性爲100~500Hz;考慮到音頻等聲音頻率範圍,一般是0.3kHz~3.4kHz,因此8kHz的採樣頻率滿足採樣定理。從頻域上來看,幅頻頻譜的包洛有幾個明顯的局部最大值,稱爲共振峯,頻譜的精細結構呈現週期性。清音的頻譜沒有周期性,峯值的分佈也沒有明顯的規律,整個頻譜相對比較平坦,類似於白噪聲,因而幾乎不可預測。

 

圖10 語音生成模型

參數編碼器又稱爲聲碼器(Vocoder),它的原理和設計思想跟波形編碼完全不同。參數編碼根據對聲音形成機理的分析,構造語音生成模型(如圖10),該模型以一定精度模擬發話者的發聲聲道;接收端根據該模型還原生成發話者的因素。由於話音信號變化是緩慢的,模型參數的更新頻度較低,可以有效地降低編碼比特率。因此參數編碼在移動通信、VoIP系統等領域得以廣泛應用。

            參數編碼器主要可分爲三類:通道式、共振峯式和線性預測編碼(LPC:Linear Predictive Coding)方式。其中線性預測編碼方式的性能優異,目前低比特率語音編碼器都採用這種技術

4.3 編碼算法綜述及其屬性和性能評估

在VoIP系統中,爲了充分地利用網絡帶寬資源,一般均採用語音壓縮編碼。語音編碼的主要屬性有比特率、時延、複雜度和語音質量四項。在具體的實現中,這些屬性往往相互衝突,在實際應用中,應該是對各項屬性的折衷,確定合適的編碼。

 

算法綜述:

降低比特率是往往是語音編碼的首要目標,採用的壓縮編碼的主要目的就是充分利用網絡資源。一般來說,編碼的比特率越低,算法的複雜度就越高,編碼的處理時延也會越長,並降低語音質量

目前,話音和圖像壓縮技術發展十分迅速,已經研究開發出很多高效率的壓縮編碼技術。如先進的以碼本激勵線性預測(CELP)原理爲基礎的G.729、G.723(G.723.1)話音壓縮編碼技術。常用的ITU-T G.729算法和ITU-T G.723.1算法的編碼速率分別爲8kbit/s和5.3或6.3kbit/s。G.729爲例,它可將經過採樣的64kb/s話音以幾乎不失真的質量壓縮至8kb/s。話音壓縮編碼技術是IP電話技術的一個重要組成部分。圖像編碼方面有IP網絡會議系統採用的H.261(活動圖像編碼)H.263(低速率活動圖像編碼)。傳真編碼方面則有T.38

 

近年來,出現了一些可變比特率的技術,主要有兩個算法。

活動語音檢測(VAD: Voice Activity Detection)主要用於檢測輸入信號是話音還是背景噪音。

舒適噪聲生成(CNG: Comfortable Noise Generation)主要用於接收方重建背景噪聲。

根據統計,雙方通話的過程中,每一方真正講話的時間約爲40%,即約有50%爲聆聽對方講話的靜默時間,10%爲講話時短暫停頓的靜默時間。靜音檢測技術可以有效剔除靜默信號,從而使話音信號佔用的帶寬要求進一步降低到3.5kb/s左右,一個很自然的想法就是:通過利用VAD技術,在講話時,媒體流正常發送,在沒講話時,不向對方發送媒體流,爲了不使得對方產生斷線的錯覺,在對方產生舒適噪聲。這種算法實現地不當,就會丟掉部分語音,如句子的開始。一個好的算法應該保證:丟掉的語音小於64毫秒,而且丟掉的語音小於0.2%。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章