音頻編解碼介紹(最全v1.0)

音頻編解碼介紹(最全v1.0)

目錄:

1. PCMU(G.711U)

2. PCMA(G.711A)

3. ADPCM

4. LPC(Linear Predictive Coding)

5. CELP(Code Excited Linear Prediction)

6. G.711

7. G.721

8. G.722

9. G.723

10.G.723.1

11.G.728

12.G.729

13.G.729A

14.GIPS

15.SILK

16.NICAM(Near Instantaneous Companded Audio Multiplex)

17.MPEG-1 audio layer 1

18.MUSICAM(MPEG-1 audio layer 2)

19.MP3(MPEG-1 audio layer 3)

20.MPEG-2 audio layer

21.AAC(Advanced Audio Coding)

22.Dolby AC-3

23.ASPEC(Audio Spectral Perceptual Entropy Coding)

24.PAC(Perceptual Audio Coder)

25.HR

26.FR

27.EFR

28.GSM-AMR(Adaptive Multi-Rate)

29.EVRC(Enhanced Variable Rate Coder)

30.QCELP(QualComm Code Excited Linear Predictive)

31.Apt-X

32.SPEEX

33.AMR(Adaptive Multi-Rate

34.OPUS

35.OGG

36.ILBC

37.ISAC


本內容部分原創,因作者才疏學淺,偶有紕漏,望不吝指出。同時感謝各路大神對本內容的支持和幫助。本內容由靈聲訊音頻-語音算法實驗室整理創作,轉載和使用請與“靈聲訊”聯繫,聯繫方式:音頻/識別/合成算法QQ羣(696554058)


1. PCMU(G.711U)
類型:Audio
制定者:ITU-T
支持帶寬:64Kbps(90.4)
特性:PCMU和PCMA都能提供較好的語音質量,但是它們佔用的帶寬較高,需要64kbps。
優點:語音質量優
缺點:佔用的帶寬較高
應用領域:voip (Voice over Internet Protocol)
版稅方式:Free
 注:PCMU and PCMA都能夠達到CD音質,但是它們消耗的帶寬也最多(64kbps)。如果網絡帶寬比較低,可以選用低比特速率的編碼方法,如G.723或 G.729,這兩種編碼的方法也能達到傳統長途電話的音質,但是需要很少的帶寬(G723需要5.3/6.3kbps,G729需要8kbps)。如果帶 寬足夠並且需要更好的語音質量,就使用PCMU 和 PCMA,甚至可以使用寬帶的編碼方法G722(64kbps),這可以提供有高保真度的音質。

2. PCMA(G.711A)
類型:Audio
制定者:ITU-T
支持帶寬:64Kbps(90.4)
特性:PCMU和PCMA都能提供較好的語音質量,但是它們佔用的帶寬較高,需要64kbps。
優點:語音質量優
缺點:佔用的帶寬較高
應用領域:voip
版稅方式:Free
 注:PCMU and PCMA都能夠達到CD音質,但是它們消耗的帶寬也最多(64kbps)。如果網絡帶寬比較低,可以選用低比特速率的編碼方法,如G.723或 G.729,這兩種編碼的方法也能達到傳統長途電話的音質,但是需要很少的帶寬(G723需要5.3/6.3kbps,G729需要8kbps)。如果帶 寬足夠並且需要更好的語音質量,就使用PCMU 和 PCMA,甚至可以使用寬帶的編碼方法G722(64kbps),這可以提供有高保真度的音質。




















3. ADPCM(自適應差分PCM)
類型:Audio
制定者:ITU-T
支持帶寬:32Kbps
特性:ADPCM(adaptive difference pulse code modulation)綜合了APCM的自適應特性和DPCM系統的差分特性,是一種性能比較好的波形編碼。它的核心想法是:
①利用自適應的思想改變量化階的大小,即使用小的量化階(step-size)去編碼小的差值,使用大的量化階去編碼大的差值;
②使用過去的樣本值估算下一個輸入樣本的預測值,使實際樣本值和預測值之間的差值總是最小。
優點:算法複雜度低,壓縮比小(CD音質>400kbps),編解碼延時最短(相對其它技術)
缺點:聲音質量一般
應用領域:voip
版稅方式:Free
 注:ADPCM (ADPCM Adaptive Differential Pulse Code Modulation), 是一種針對 16bit (或者更高?) 聲音波形數據的一種有損壓縮算法, 它將聲音流中每次採樣的 16bit 數據以 4bit 存儲, 所以壓縮比 1:4. 而壓縮/解壓縮算法非常的簡單, 所以是一種低空間消耗,高質量聲音獲得的好途徑。


4. LPC(Linear Predictive Coding,線性預測編碼)
類型:Audio
制定者:
支持帶寬:2Kbps-4.8Kbps
特性:壓縮比大,計算量大,音質不高,廉價
優點:壓縮比大,廉價
缺點:計算量大,語音質量不是很好,自然度較低
應用領域:voip
版稅方式:Free
 注:參數編碼又稱爲聲源編碼,是將信源信號在頻率域或其它正交變換域提取特徵參數,並將其變換成數字代碼進行傳輸。譯碼爲其反過程,將收到的數字序列經變 換恢復特徵參量,再根據特徵參量重建語音信號。具體說,參數編碼是通過對語音信號特徵參數的提取和編碼,力圖使重建語音信號具有儘可能高的準確性,但重建 信號的波形同原語音信號的波形可能會有相當大的差別。如:線性預測編碼(LPC)及其它各種改進型都屬於參數編碼。該編碼比特率可壓縮到2Kbit/s- 4.8Kbit/s,甚至更低,但語音質量只能達到中等,特別是自然度較低。
























5. CELP(Code Excited Linear Prediction,碼激勵線性預測編碼)
類型:Audio
制定者:歐洲通信標準協會(ETSI)
支持帶寬:4~16Kbps的速率
特性:改善語音的質量:
① 對誤差信號進行感覺加權,利用人類聽覺的掩蔽特性來提高語音的主觀質量;
② 用分數延遲改進基音預測,使濁音的表達更爲準確,尤其改善了女性語音的質量;
③ 使用修正的MSPE準則來尋找 “最佳”的延遲,使得基音週期延遲的外形更爲平滑;
④ 根據長時預測的效率,調整隨機激勵矢量的大小,提高語音的主觀質量;








⑤ 使用基於信道錯誤率估計的自適應平滑器,在信道誤碼率較高的情況下也能合成自然度較高的語音。
結論:
① CELP算法在低速率編碼環境下可以得到令人滿意的壓縮效果;
② 使用快速算法,可以有效地降低CELP算法的複雜度,使它完全可以實時地實現;
③ CELP可以成功地對各種不同類型的語音信號進行編碼,這種適應性對於真實環境,尤其是背景噪聲存在時更爲重要。
優點:用很低的帶寬提供了較清晰的語音
缺點:
應用領域:voip
版稅方式:Free
 注:1999年歐洲通信標準協會(ETSI)推出了基於碼激勵線性預測編碼(CELP)的第三代移動通信語音編碼標準自適應多速率語音編碼器(AMR), 其中最低速率爲4.75kb/s,達到通信質量。CELP 碼激勵線性預測編碼是Code Excited Linear Prediction的縮寫。CELP是近10年來最成功的語音編碼算法。
CELP語音編碼算法用線性預測提取聲道參數,用一個包含許多典型的激勵矢量的碼本作爲激勵參數,每次編碼時都在這個碼本中搜索一個最佳的激勵矢量,這個激勵矢量的編碼值就是這個序列的碼本中的序號。
CELP已經被許多語音編碼標準所採用,美國聯邦標準FS1016就是採用CELP的編碼方法,主要用於高質量的窄帶語音保密通信。CELP (Code-Excited Linear Prediction) 這是一個簡化的 LPC 算法,以其低比特率著稱 (4800-9600Kbps),具有很清晰的語音品質和很高的背景噪音免疫性。CELP是一種在中低速率上廣泛使用的語音壓縮編碼方案。


6. G.711
類型:Audio
制定者:ITU-T
支持帶寬:64Kbps
特性:算法複雜度小,音質一般
優點:算法複雜度低,壓縮比小(CD音質>400kbps),編解碼延時最短(相對其它技術)
缺點:佔用的帶寬較高
應用領域:voip
版稅方式:Free
備註:70年代CCITT公佈的G.711 64kb/s脈衝編碼調製PCM。


7. G.721
類型:Audio
制定者:ITU-T
支持帶寬:32Kbps
特性:相對於PCMA和PCMU,其壓縮比較高,可以提供2:1的壓縮比。
優點:壓縮比大
缺點:聲音質量一般
應用領域:voip
版稅方式:Free
備註:子帶ADPCM(SB-ADPCM)技術。G.721標準是一個代碼轉換系統。它使用ADPCM轉換技術,實現64 kb/s A律或μ律PCM速率和32 kb/s速率之間的相互轉換。



































8. G.722
類型:Audio
制定者:ITU-T
支持帶寬:64Kbps
特性:G722能提供高保真的語音質量
優點:音質好
缺點:帶寬要求高
應用領域:voip
版稅方式:Free
備註:子帶ADPCM(SB-ADPCM)技術


9. G.723(低碼率語音編碼算法)
類型:Audio
制定者:ITU-T
支持帶寬:5.3Kbps/6.3Kbps
特性:語音質量接近良,帶寬要求低,高效實現,便於多路擴展,可利用C5402片內16kRAM實現53coder。達到ITU-TG723要求的語音質量,性能穩定。可用於IP電話語音信源編碼或高效語音壓縮存儲。
優點:碼率低,帶寬要求較小。並達到ITU-TG723要求的語音質量,性能穩定。
缺點:聲音質量一般
應用領域:voip
版稅方式:Free
 注:G.723語音編碼器是一種用於多媒體通信,編碼速率爲5.3kbits/s和6.3kbit/s的雙碼率編碼方案。G.723標準是國際電信聯盟 (ITU)制定的多媒體通信標準中的一個組成部分,可以應用於IP電話等系統中。其中,5.3kbits/s碼率編碼器採用多脈衝最大似然量化技術 (MP-MLQ),6.3kbits/s碼率編碼器採用代數碼激勵線性預測技術。


10. G.723.1(雙速率語音編碼算法)
類型:Audio
制定者:ITU-T
支持帶寬:5.3Kbps(22.9)
特 性:能夠對音樂和其他音頻信號進行壓縮和解壓縮,但它對語音信號來說是最優的。G.723.1採用了執行不連續傳輸的靜音壓縮,這就意味着在靜音期間的比 特流中加入了人爲的噪聲。除了預留帶寬之外,這種技術使發信機的調制解調器保持連續工作,並且避免了載波信號的時通時斷。
優點:碼率低,帶寬要求較小。並達到ITU-TG723要求的語音質量,性能穩定,避免了載波信號的時通時斷。
缺點:語音質量一般
應用領域:voip
版稅方式:Free
備註:G.723.1算法是 ITU-T建議的應用於低速率多媒體服務中語音或其它音頻信號的壓縮算法,其目標應用系統包括H.323、H.324等多媒體通信系統 。目前該算法已成爲IP電話系統中的必選算法之一。


11. G.728
類型:Audio
制定者:ITU-T
支持帶寬:16Kbps/8Kbps
特性:用於IP電話、衛星通信、語音存儲等多個領域。G.728是一種低時延編碼器,但它比其它的編碼器都複雜,這是因爲在編碼器中必須重複做50階LPC分析。G.728還採用了自適應後置濾波器來提高其性能。
優點:後向自適應,採用自適應後置濾波器來提高其性能
缺點:比其它的編碼器都複雜
應用領域:voip
版稅方式:Free
備註:G.728 16kb/s短延時碼本激勵線性預測編碼(LD-CELP)。1996年ITU公佈了G.728 8kb/s的CS-ACELP算法,可以用於IP電話、衛星通信、語音存儲等多個領域。16 kbps G.728低時延碼激勵線性預測。
G.728是低比特線性預測合成分析編碼器(G.729和G.723.1)和後向ADPCM編碼器的混合體。G.728是LD-CELP編碼器,它一次只 處理5個樣點。對於低速率(56~128 kbps)的綜合業務數字網(ISDN)可視電話,G.728是一種建議採用的語音編碼器。由於其後向自適應特性,因此G.728是一種低時延編碼器,但 它比其它的編碼器都複雜,這是因爲在編碼器中必須重複做50階LPC分析。G.728還採用了自適應後置濾波器來提高其性能。















































12. G.729
類型:Audio
制定者:ITU-T
支持帶寬:8Kbps
特性:在良好的信道條件下要達到長話質量,在有隨機比特誤碼、發生幀丟失和多次轉接等情況下要有很好的穩健性等。這種語音壓縮算法可以應用在很廣泛的領域中,包括IP電話、無線通信、數字衛星系統和數字專用線路。
G.729算法採用“共軛結構代數碼本激勵線性預測編碼方案”(CS-ACELP)算法。這種算法綜合了波形編碼和參數編碼的優點,以自適應預測編碼技術爲基礎,採用了矢量量化、合成分析和感覺加權等技術。
G.729編碼器是爲低時延應用設計的,它的幀長只有10ms,處理時延也是10ms,再加上5ms的前視,這就使得G.729產生的點到點的時延爲25ms,比特率爲8 kbps。
優點:語音質量良,應用領域很廣泛,採用了矢量量化、合成分析和感覺加權,提供了對幀丟失和分組丟失的隱藏處理機制
缺點:在處理隨機比特錯誤方面性能不好。
應用領域:voip
版稅方式:Free
 注:國際電信聯盟(ITU-T)於1995年11月正式通過了G.729。 ITU-T建議G.729也被稱作“共軛結構代數碼本激勵線性預測編碼方案”(CS-ACELP),它是當前較新的一種語音壓縮標準。G.729是由美 國、法國、日本和加拿大的幾家著名國際電信實體聯合開發的。


13. G.729A
類型:Audio
制定者:ITU-T
支持帶寬:8Kbps(34.4)
特性:複雜性較G.729低,性能較G.729差。
優點:語音質量良,降低了計算的複雜度以便於實時實現,提供了對幀丟失和分組丟失的隱藏處理機制
缺點:性能較G.729差
應用領域:voip
版稅方式:Free
備註:96年ITU-T又制定了G.729的簡化方案G.729A,主要降低了計算的複雜度以便於實時實現,因此目前使用的都是G.729A。
























  • 14. GIPS
    類型:Audio
    制定者:瑞典Global IP Sound公司
    支持帶寬:
    特性:GIPS技術可根據帶寬狀況自動調節編碼碼率,提供低碼率高質量的音頻。GIPS的核心技術(網絡自適應算法,丟包補償算法和回聲消除算法)可很好地解決語音延遲與回聲問題,帶來完美音質,提供比電話還清晰的語音通話效果。
    優點:很好地解決語音延遲與回聲問題,帶來完美音質,提供比電話還清晰的語音通話效果
    缺點: 不是Free
    應用領域:voip
    版稅方式:每年支付一筆使用權費用
    注:GIPS音頻技術是由來自瑞典的全球頂尖的語音處理高科技公司--"GLOBAL IP SOUND"提供的專用於互聯網的語音壓縮引擎系統。GIPS技術可根據帶寬狀況自動調節編碼碼率,提供低碼率高質量的音頻。GIPS的核心技術(網絡自 適應算法,丟包補償算法和回聲消除算法)可很好地解決語音延遲與回聲問題,帶來完美音質,提供比電話還清晰的語音通話效果。









15.SILK

  • 類型:Audio
  • 制定者:skype(目前被Microsoft收購)
  • 支持帶寬:6-40Kbps
  • 應用領域:voip
  • 開發歷史:SILK最早在Windows版Skype的4.0版本中被披露,它成爲了Skype到Skype通話的默認解碼器,實時帶寬6-40Kbps即可工作,即使丟包水平達到10%依然可以穩定維持24KHz採樣的通話音質.Skype投入了數百萬美元,耗時三年多開發了Silk,他們表示Silk可以使VoIP通話聽起來好像你和對話的人在同一間房子裏一樣。大部分電話只能傳輸3.4kHz(碼率)的信號,而Silk可以讓Skype傳輸高達12kHz的信號。開放編碼器可以被看作是Skype放棄了一項競爭優勢,但是它是Skype將其服務推廣到更多設備這一長期戰略中的一環。該公司已經有4.05億套軟件的裝機量,其中絕大部分用戶是臺式計算機用戶。免費提供其編碼器可以讓設備製造商將Skype整合到像智能電話、手機或移動互聯設備中去。Skype已經開始着手將其服務推廣到其它平臺上,併發布了基於Android和支持Java手機的通話服務。該公司還和諾基亞合作將其VoIP軟件預裝到智能手機上,例如N97。
  • Silk下載地址如下
  • http://developer.skype.com/silk/SILK_SDK_SRC_v1.0.7.zip
  • Silk標準下載地址如下
  • http://tools.ietf.org/html/draft-vos-silk-01
  • Silk的一些文檔
  • http://developer.skype.com/silk


16. NICAM(Near Instantaneous Companded Audio Multiplex 準瞬時壓擴音頻複用)
類型:Audio
制定者:英國BBC廣播公司
支持帶寬:728Kbps
特性:應用範圍及其廣泛,可用它進行立體聲或雙語廣播
優點:應用範圍及其廣泛,信噪比高,動態範圍寬、音質同CD相媲美,故名麗音,因此NICAM又稱爲麗音
缺點:不是Free,頻寬要求高
應用領域:voip
版稅方式:一次性付費
備註:NICAM也稱麗音,它是英文Near-Instantaneously Companded Audio Multiplex的縮寫,其含義爲準瞬時壓擴音頻複用,是由英國BBC廣播公司開發研究成功的。
通俗地說NICAM技術實際上就是雙聲道數字聲技術,其應用範圍及其廣泛,最典型的應用便是電視廣播附加雙聲道數字聲技術,利用它進行立體聲或雙語廣播, 以充分利用電視頻道的頻譜資源。這是在常規電視廣播的基礎上無需增加許多投資就可以實現的。在進行立體聲廣播時,它提高了音頻的信號質量,使其接近CD的 質量。而且還可以利用NICAM技術進行高速數據廣播及其他數據傳輸的增殖服務,這在當今的信息化社會中似乎就顯得尤爲重要了!


17. MPEG-1 audio layer 1
類型:Audio
制定者:MPEG
支持帶寬:384kbps(壓縮4倍)
特性:編碼簡單,用於數字盒式錄音磁帶,2聲道,VCD中使用的音頻壓縮方案就是MPEG-1層Ⅰ。
優點:壓縮方式相對時域壓縮技術而言要複雜得多,同時編碼效率、聲音質量也大幅提高,編碼延時相應增加。可以達到“完全透明”的聲音質量(EBU音質標準)
缺點:頻寬要求較高
應用領域:voip
版稅方式:Free
備註:MPEG-1聲音壓縮編碼是國際上第一個高保真聲音數據壓縮的國際標準,它分爲三個層次:
--層1(Layer 1):編碼簡單,用於數字盒式錄音磁帶
--層2(Layer 2):算法複雜度中等,用於數字音頻廣播(DAB)和VCD等
--層3(Layer 3):編碼複雜,用於互聯網上的高質量聲音的傳輸,如MP3音樂壓縮10倍


18. MUSICAM(MPEG-1 audio layer 2)
類型:Audio
制定者:MPEG
支持帶寬:256~192kbps(壓縮6~8倍)
特性:算法複雜度中等,用於數字音頻廣播(DAB)和VCD等,2聲道,而MUSICAM由於其適當的複雜程度和優秀的聲音質量,在數字演播室、DAB、DVB等數字節目的製作、交換、存儲、傳送中得到廣泛應用。
優點:壓縮方式相對時域壓縮技術而言要複雜得多,同時編碼效率、聲音質量也大幅提高,編碼延時相應增加。可以達到“完全透明”的聲音質量(EBU音質標準)
缺點:
應用領域:voip
版稅方式:Free
備註:同MPEG-1 audio layer 1


19. MP3(MPEG-1 audio layer 3)
類型:Audio
制定者:MPEG
支持帶寬:128~112kbps(壓縮10~12倍)
 性:編碼複雜,用於互聯網上的高質量聲音的傳輸,如MP3音樂壓縮10倍,2聲道。MP3是在綜合MUSICAM和ASPEC的優點的基礎上提出的混合壓 縮技術,在當時的技術條件下,MP3的複雜度顯得相對較高,編碼不利於實時,但由於MP3在低碼率條件下高水準的聲音質量,使得它成爲軟解壓及網絡廣播的寵兒。
優點:壓縮比高,適合用於互聯網上的傳播
缺點:MP3在128KBitrate及以下時,會出現明顯的高頻丟失
應用領域:voip
版稅方式:Free
備註:同MPEG-1 audio layer 1

20. MPEG-2 audio layer
類型:Audio
制定者:MPEG
支持帶寬:與MPEG-1層1,層2,層3相同
特性:MPEG-2的聲音壓縮編碼採用與MPEG-1聲音相同的編譯碼器,層1, 層2和層3的結構也相同,但它能支持5.1聲道和7.1聲道的環繞立體聲。
優點:支持5.1聲道和7.1聲道的環繞立體聲
缺點:
應用領域:voip
版稅方式:按個收取
備註:MPEG-2的聲音壓縮編碼採用與MPEG-1聲音相同的編譯碼器,層1, 層2和層3的結構也相同,但它能支持5.1聲道和7.1聲道的環繞立體聲。





























































21. AAC(Advanced Audio Coding,先進音頻編碼)
類型:Audio
制定者:MPEG
支持帶寬:96-128 kbps
特性:AAC可以支持1到48路之間任意數目的音頻聲道組合、包括15路低頻效果聲道、配音/多語音聲道,以及15路數據。它可同時傳送16套節目,每套節目的音頻及數據結構可任意規定。
AAC主要可能的應用範圍集中在因特網網絡傳播、數字音頻廣播,包括衛星直播和數字AM、以及數字電視及影院系統等方面。AAC使用了一種非常靈活的熵編 碼核心去傳輸編碼頻譜數據。具有48 個主要音頻通道,16 個低頻增強通道,16 個集成數據流, 16 個配音,16 種編排。
優點:支持多種音頻聲道組合,提供優質的音質
缺點:
應用領域:voip
版稅方式:一次性收費
備註:AAC於1997年形成國際標準ISO 13818-7。先進音頻編碼(Advanced Audio Coding--AAC)開發成功,成爲繼MPEG-2音頻標準(ISO/IEC13818-3)之後的新一代音頻壓縮標準。
在MPEG-2制訂的早期,本來是想將其音頻編碼部分保持與MPEG-1兼容的。但後來爲了適應演播電視的要求而將其定義成爲一個可以獲得更高質量的多聲 道音頻標準。理所當然地,這個標準是不兼容MPEG-1的,因此被稱爲MPEG-2 AAC。換句話說,從表面上看,要製作和播放AAC,都需要使用與MP3完全不同的工具。


22. Dolby AC-3
類型:Audio
制定者:美國杜比公司
支持帶寬:64kbps
特性:提供的環繞立體聲系統由5個全頻帶聲道加一個超低音聲道組成,6個聲道的信息在製作和還原過程中全部數字化,信息損失很少,細節豐富,具有真正的立體聲效果,在數字電視、DVD和家庭影院中廣泛使用。
優點:環繞立體聲,信息損失很少,細節豐富,具有真正的立體聲效果
缺點:
應用領域:voip
版稅方式:按個收取
 注:杜比數字AC-3(Dolby Digital AC-3):美國杜比公司開發的多聲道全頻帶聲音編碼系統,它提供的環繞立體聲系統由5個全頻帶聲道加一個超低音聲道組成,6個聲道的信息在製作和還原過 程中全部數字化,信息損失很少,細節豐富,具有真正的立體聲效果,在數字電視、DVD和家庭影院中廣泛使用。


23. ASPEC(Audio Spectral Perceptual Entropy Coding)
類型:Audio
制定者:AT&T
支持帶寬:64kps
特性:音頻質量獲得顯著改善,不過計算複雜度也大大提高,而且在迴響、低碼率時聲音質量嚴重下降。
優點:音頻質量獲得顯著改善
缺點:計算複雜度的提高。塊邊界影響、預計算複雜度的提高。迴響、低碼率時聲音質量嚴重下降
應用領域:voip
版稅方式:按個收取
備註:變換壓縮技術


24. PAC(Perceptual Audio Coder)
類型:Audio
制定者:AT&T
支持帶寬:64kps
特性:音頻質量獲得顯著改善,不過在迴響、低碼率時聲音質量嚴重下降。
優點:音頻質量獲得顯著改善
缺點:塊邊界影響、預迴響、低碼率時聲音質量嚴重下降
應用領域:voip
版稅方式:按個收取
備註:變換壓縮技術


25. HR
類型:Audio
制定者: 飛利浦
支持帶寬:8Kbps
特性:以增加GSM網絡容量爲目的,但是會損害語音質量;由於現在網絡頻率緊缺,一些大的運營商已經在大城市密集地帶開通此方式以增加容量。
優點:系統容量大
缺點:語音質量差
應用領域:GSM
版稅方式:按個收費
備註:HF半速率,是一種GSM語音編碼方式。




























































26. FR
類型:Audio
制定者:飛利浦
支持帶寬:13Kbps
特性:是一般的GSM手機的通信編碼方式,可以獲得達到4.1左右Qos的語音通信質量(國際電聯規定語音通信質量Qos滿分爲5)
優點:語音質量得到了提高
缺點:系統容量降低
應用領域:GSM
版稅方式:按個收費
備註:FR全速率,是一種GSM語音編碼方式。


27. EFR
類型:Audio
制定者:飛利浦
支持帶寬:13Kbps
特性:用於GSM手機基於全速率13Kbps的語音編碼和發送,可以獲得更好更清晰的語音質量(接近Qos4.7),需要網絡服務商開通此項網絡功能,手機才能配合實現。
優點:音質好
缺點:需要網絡服務商開通此項網絡功能,且系統容量降低
應用領域:GSM
版稅方式:按個收費
備註:EFR增強型全速率,一種GSM網絡語音的編碼方式。






















28. GSM-AMR(Adaptive Multi-Rate)
類型:Audio
制定者:飛利浦
支持帶寬:8Kbps(4.75 Kbps~12.2 Kbps)
特性: 可以對語音進行替換和消音,平滑噪音,支持間斷式傳輸,對語音進行動態偵查。能在各種網絡條件下提供優質的語音效果。
優點:音質出色
缺點:
應用領域:GSM
版稅方式:按個收費
 注:GSM-ASM是一種廣泛使用在GPRS和W-CDMA網絡上的音頻標準。在規範ETSI GSM06.90中對GSM-AMR進行了定義。AMR語音編碼是GSM 2+和WCDMA的默認編碼標準,是第三代無線通訊系統的語音編碼標準。GSM-AMR標準基於ACELP(代數激勵線性預測)編碼。它能在廣泛的傳輸條 件下提供高品質的語音效果。


29. EVRC(Enhanced Variable Rate Coder,增強型可變速率編碼器)
類型:Audio
制定者:美國Qualcomm通信公司(即高通)
支持帶寬:8Kbps或13Kbps
特性:支持三種碼率(9.6 Kbps, 4.8 Kbps 和 1.2 Kbps),噪聲抑制,郵件過濾。能在各種網絡條件下提供優質的語音效果。
優點:音質出色
缺點:
應用領域:CDMA
版稅方式:按個收費
 注:EVRC編碼廣泛使用於CDMA網絡。EVRC標準遵循規範TIA IS-127的內容。EVRC編碼基於RCELP(鬆弛碼激勵線性預測)標準。該編碼可以以Rate 1(171bits/packet),Rate 1/2(80bits/packet)或是Rate 1/8(16bits/packet)的容量進行操作。在要求下,它也能產生空包(0bits/packet)。






















30. QCELP(QualComm Code Excited Linear Predictive,受激線性預測編碼)
類型:Audio
制定者:美國Qualcomm通信公司(即高通)
支持帶寬:8k的語音編碼算法(可工作於4/4.8/8/9.6Kbps等固定速率上,而且可變速率地工作於800Kbps~9600Kbps之間)
 性:使用適當的門限值來決定所需速率。QCELP是一種8k的語音編碼算法(可以在8k的速率下提供接近13k的話音壓縮質量)。這是一種可變速率話音編 碼,根據人的說話特性(大家應該能夠體會我們日常的溝通和交流時並不是一直保持某種恆定的方式講話,有間斷、有不同的聲音頻率等都是人的自然表達)而採取 的一種優化技術。
優點:話音清晰、背景噪聲小,系統容量大
缺點: 不是Free
應用領域:CDMA
版稅方式:每年支付一筆使用權費用
 注:QCELP,即QualComm Code Excited Linear Predictive(QualComm受激線性預測編碼)。美國Qualcomm通信公司的專利語音編碼算法,是北美第二代數字移動電話(CDMA)的 語音編碼標準(IS95)。這種算法不僅可工作於4/4.8/8/9.6kbit/s等固定速率上,而且可變速率地工作於 800bit/s~9600bit/s之間。QCELP算法被認爲是到目前爲止效率效率最高的一種算法,它的主要特點之一,是使用適當的門限值來決定所需速率。I‘1限值懈景噪聲電平變化而變化,這樣就抑制了背景噪聲,使得即使在喧鬧的環境中,也能得到良好的話音質量, CDMA8Kbit/s的話音近似GSM 13Mbit/s的話音。CDMA採用QCELP編碼等一系列技術,具有話音清晰、背景噪聲小等優勢,其性能明顯 優於其他無線移動通信系統,語音質量可以與有線電話媲美。 無線輻射低。









31. Apt-X
類型:Audio
制定者:Audio Processing Technology 公司
支持帶寬:10Hz to 22.5 kHz,56kbit/s to 576 kbit/s(16 bit 7.5 kHz mono to 24-bit, 22.5kHz stereo)
特性:主要用於專業音頻領域,提供高品質的音頻。其特點是:
①採用4:1:4的壓縮與放大方案;
②硬件低複雜度;
③極低的編碼延遲;
④由單芯片實現;
⑤單聲道或立體聲編解碼;
⑥只需單設備即可實現22.5kHz的雙通道立體聲;
⑦高達48kHz的採樣頻率;
⑧容錯性好;
⑨完整的AUTOSYNC™編解碼同步方案;
⑩低功率消耗
優點:高品質的音頻,硬件複雜度低,設備要求低
缺點:不是Free
應用領域:voip
版稅方式:一次性付費
備註:子帶ADPCM(SB-ADPCM)技術


















32. SPEEX

類型:Audio
制定者:https://www.xiph.org/

支持採樣率:8KHz, 16KHz, 32KHz(對應窄帶,寬帶,超寬帶)

應用領域:voip

編碼:Speex編解碼器是基於CELP(Code Excited Linear Prediction)激勵線性預測編碼的,而且專門爲2至44kbps的語音壓縮而設計的。是有損壓縮,通常用0~10範圍內的質量參數來控制Speex編碼。正常情況下,複雜度爲1時噪聲級會比複雜度爲10時高1~2 dB(分貝),而複雜度爲10的CPU需求是複雜度爲1的5倍。實踐證明,最好將複雜度設置在2~4,設置較高則對非語音編碼如雙音多頻(DTMF)音質較爲有用。

Speex的主要特性總結如下:

  • a. 只支持單聲道,不支持多聲道。
  • b. 只能對音頻數據進行處理,不支持音頻數據的輸入輸出,也就是不支持錄音和播放。
  • c. 支持強化立體聲編碼(Intensity Stereo Encoding)。
  • d. 支持數據包丟失隱藏(Packet Loss Concealment、PLC)。
  • e. 支持固定比特率(Constant Bit Rate、CBR)。
  • f. 支持可變比特率(Variable Bit Rate、VBR)。可大範圍改變比特率(bit-rate)(從2.15kbps到44kbps )
  • g. 支持平均比特率(Average Bit Rate、ABR)。
  • h. 支持非連續傳輸(Discontinuous transmission、DTX)。
  • i. 支持定點執行(Fixed-point implementation)。
  • j. 支持浮點執行(Floating-point implementation)。
  • k. 支持聲學回音消除(Acoustic Echo Canceller、AEC)。
  • l. 支持殘餘迴音消除(Residual Echo Canceller、REC)。
  • m. 支持噪音抑制(Noise Suppression、NS)。
  • n. 支持混響音消除(Dereverb)。
  • o. 支持自動增益控制(Automatic Gain Control、AGC)。
  • p. 支持語音活動檢測(Voice Activity Detection、VAD)。
  • q. 支持多速率(multi-rate)。
  • r. 支持嵌入式(Embedded)。
  • s. 支持重採樣(Resample)。
  • t. 開源的自由軟件,免專利,免版權。
  • u. 支持可變複雜度(0~10)
  • v. 支持定點執行

Speex庫官方網站:http://www.speex.org/

Speex庫API官方英文詳解:http://www.speex.org/docs/api/speex-api-reference/index.html

NSpeex庫(用於.Net和Silverlight的Speex庫)官方網站:http://nspeex.codeplex.com/

Speex庫目前最新的版本是Speex 1.2.0和SpeexDSP 1.2.0。

 

33. AMR(Adaptive Multi-Rate,自適應多速率)

  • 類型:Audio
    制定者: AMR由歐洲通信標準化委員會提出,是在移動通信系統中使用最廣泛的語音標準。MMS也採用這一格式作爲聲音標準。支持機型:阿爾卡特OT756、西門子CX65等。 和ADPCM一樣,AMR並不是專門的手機鈴聲格式,AMR是被各大手機廠商廣泛認可的一種保存手機錄音的格式。Nokia爲WB-AMR格式(AWB)的鈴聲所作的商業命名,已被3GPP(The 3rd Generation Partnership Project,第三代合作伙伴計劃)選定爲GSM和3G WCDMA應用的寬帶語言編解標準。
  • 作用:AMR音頻主要用於移動設備的音頻壓縮,壓縮比非常高,但是音質比較差,主要用於語音類的音頻壓縮,不適合對音質要求較高的音樂類音頻的壓縮。
  • 應用領域:voip
  • 種類:AMR又分爲兩種,一種是AMR-NB(AMR-NarrowBind),語音帶寬範圍:300-3700Hz,8KHz採樣頻率;另外一種是AMR-WB(AMR WideBand),語音帶寬範圍50-7000Hz,16KHz採樣頻率。但考慮語音的短時相關性,每幀長度均爲20ms。
  • 實現原理:
  • (1)AMR-NB
  • AMR的採樣頻率爲8KHz,每20ms編碼一幀,每個幀中包含160個語音樣點。
  • AMR採用的是基於代數碼激勵線性預測(ACELP)的編碼模式,編碼端提取ACELP模型參數(線性預測係數,自適應碼本和固定碼本索引及增益),解碼端接收到數據然後根據這些參數從新合成語音。TD-SCDMA中AMR-NB的實現。此編碼器運用了代數碼本線性預測(ACELP)混合編碼方式,也就是數字語音信號中既包括若干語音特徵參數又包括部分波形編碼信息,再運用這些特徵信息重新合成語音信號的過程。控制這些參數的提取數目,根據速率要求對信息進行取捨而得到了以下8種速率,混合組成如表一所示的自適應語音編碼器。如模式AMR_12.20就提取出244比特的參數信息,而模式AMR_4.70卻只提取了95比特信息。根據這些比特所含的信息量可以將其分爲3類比特class 0,1和2。在信道編碼時class 0和1都將會使用循環冗餘校驗碼進行差錯檢驗,對於class 2則根據上一幀進行恢復。
  • (2)AMR-WB
  • AMR-WB”全稱爲“Adaptive Multi-rate – Wideband”,即“自適應多速率寬帶編碼”,採樣頻率爲16kHz,是一種同時被國際標準化組織ITU-T和3GPP採用的寬帶語音編碼標準,也稱爲G722.2標準。AMR-WB 支持9種不同的編碼方式:6.6kb/s 8.85kb/s 12.65kb/s 14.25kb/s 15.85kb/s 18.25kb/s 19.85kb/s ,23.05kb/s,23.85kb/s,提供的語音帶寬範圍達到50~7000Hz,人聲感覺比以前更加自然、舒適和易於分辨 。
  • 特性說明:
  • a. 比特率是指將數字聲音由模擬格式轉化成數字格式的採樣率,採樣率越高,還原後的音質就越好。
  • b. 比特率值與現實音頻對照:
  • c. 16kbps=電話音質
  • d. 24kbps=增加電話音質、短波廣播、長波廣播、歐洲制式中波廣播
  • e. 40kbps=美國製式中波廣播
  • f. 56kbps=話音
  • g. 64kbps=增加話音(手機鈴聲最佳比特率設定值、手機單聲道MP3播放器最佳設定值)
  • h. 112kbps=FM調頻立體聲廣播
  • i. 128kbps=磁帶(手機立體聲MP3播放器最佳設定值、低檔MP3播放器最佳設定值)
  • j. 160kbps=HIFI高保真(中高檔MP3播放器最佳設定值)
  • k. 192kbps=CD(高檔MP3播放器最佳設定值)
  • l. 256kbps=Studio音樂工作室(音樂發燒友適用)

速率:

MOS得分:

34. OPUS

類型:Audio/Music
制定者:https://www.xiph.org/

作用:Opus可以處理各種音頻應用,包括IP語音、視頻會議、遊戲內聊天、流音樂、甚至遠程現場音樂表演。它可以從低比特率窄帶語音擴展到非常高清音質的立體聲音樂。

技術標準:https://tools.ietf.org/html/rfc6716

兩種聲音編碼的技術:以語音編碼爲導向的SILK和低延遲的CELT。Opus可以無縫調節高低比特率。在編碼器內部它在較低比特率時使用線性預測編碼在高比特率時候使用變換編碼(在高低比特率交界處也使用兩者結合的編碼方式)。

延遲:Opus具有非常低的算法延遲(默認爲22.5 ms),非常適合用於低延遲語音通話的編碼,像是網上上的即時聲音流、即時同步聲音旁白等等,此外Opus也可以透過降低編碼碼率,達成更低的算法延遲,最低可以到5 ms。在多個聽覺盲測中,Opus都比MP3、AAC、HE-AAC等常見格式,有更低的延遲和更好的聲音壓縮率。

版稅方式: Opus格式是一個開源免費格式,使用上沒有任何專利或限制。

應用領域:voip

特性說明:

  • a. 6 kb/秒到510 kb/秒的比特率;單一頻道最高256 kb/秒
  • b. 採樣率從8 kHz(窄帶)到48 kHz(全頻)
  • c. 幀大小從2.5毫秒到60毫秒
  • d. 支持恆定比特率(CBR)、受約束比特率(CVBR)和可變比特率(VBR)
  • e. 支持語音(SILK層)和音樂(CELT層)的單獨或混合模式
  • f. 支持單聲道和立體聲;支持多達255個音軌(多數據流的幀)
  • g. 可動態調節比特率,音頻帶寬和幀大小
  • h. 良好的魯棒性丟失率和數據包丟失隱藏(PLC)
  • i. 浮點和定點實現

35. OGG(容器)

類型:Audio
制定者:https://www.xiph.org/

作用:ogg是一種多媒體容器,可以包含很多種音視頻格式

質量:一般見的.ogg的文件大都ogg的vorbis音頻格式,是一種效果和MP3相媲美的音頻,我最初接觸ogg的時候,以爲是純音頻,看過官網的介紹發現他是一個很強大的容器結構,xiph提供的免費的視頻Theora和音頻vorbis都是開源免費的,都包含在ogg的容器中,此外ogg也能包含很多其他音視頻,如:flac,MP3等.

36. iLBC(internet lowbitrate codec)

類型:Audio
制定者:GIPS(google)

性能:它是低比特率的編碼解碼器,提供在丟包時具有的強大的健壯性。iLBC 提供的語音音質等同於或超過 G.729 和 G.723.1,並比其它低比特率的編碼解碼器更能阻止丟包。

支持帶寬:iLBC 以13.3 kb/s (每幀30毫秒)和15.2 kb/s (每幀20毫秒)

優點: iLBC的主要優勢在於對丟包的處理能力。iLBC獨立處理每一個語音包,是一種理想的包交換網絡語音編解碼。在正常情況下,iLBC會記錄下當前數據的相關參數和激勵信號,以便在之後的數據丟失的情況下進行處理;在當前數據接收正常而之前數據包丟失的情況下,iLBC會對當前解碼出的語音和之前模擬生成的語音進行平滑處理,以消除不連貫的感覺;在當前數據包丟失的情況下,iLBC會對之前記錄下來的激勵信號作相關處理並與隨機信號進行混合,以得到模擬的激勵信號,從而得到替代丟失語音的模擬語音。總的來說,和標準的低位速率編解碼相比,iLBC使用更多自然、清晰的元素,精確的模仿出原始語音信號,被譽爲更適合包交換網絡使用的可獲得高語音質量的編解碼。

此外,大部分標準的低位速率編解碼,如G.723.1和G.729,僅對300Hz——3400Hz的頻率範圍進行編碼。在這個頻率範圍裏,用G.711編解碼所達到的語音質量,就是傳統PSTN網絡進行語音通話的效果。iLBC充分利用了0——4000Hz的頻率帶寬進行編碼,擁有超清晰的語音質量,這大大超出傳統300Hz——3400Hz的頻率範圍。廣受歡迎的Skype網絡電話的核心技術之一就是iLBC語音編解碼技術,Global IP Sound稱該編碼器語音品質優於PSTN,而且能忍受高達30%的封包損失。

總的來說,在相同的包交換通信條件下,iLBC的語音質量效果比G.729、G.723.1以及G.711更好,聲音更加圓潤飽滿,且丟包率越高,iLBC在語音質量上的優勢就越明顯!

目前,在國際市場上已經有很多VoIP的設備和應用廠商把iLBC集成到他們的產品中。如:Skype, Nortel等。在國內市場上,目前尚無VoIP廠家正式推出支持“iLBC”的網關設備,迅時公司 率先推出支持“iLBC”的中繼網關和IAD設備。

橫向對比:

 

37. ISAC(Internet Speech Audio Codec)

  • 類型:Audio
  • 制定者:GIPS(google)
  • 應用範圍:voip(曾被很多公司應用,包括AIM,QQ,Google Talk)
  • 版稅方式:FreeI
  • 採樣率支持:16khz,24khz,32khz(webrtc中代碼)支持ABR,VBR和CBR:10kbps ~ 52kbps自適應包大小:30~60ms
  • 算法延時:frame + 3ms。
  • 框圖如下:


常用codec綜合比較


圖1. 不同編解碼綜合對比

圖2. 不同編解碼延遲

圖3. 不同編解碼質量

 

參考資料:

1. https://www.itu.int/en/Pages/default.aspx

2https://www.xiph.org/

3Google

4. 音頻編解碼標準


學淺,偶有紕漏,望不吝指出。本內容由靈聲訊音頻-語音算法實驗室整理創作,轉載和使用請與“靈聲訊”聯繫,聯繫方式:音頻/識別/合成算法QQ羣(696554058)


福利小貼士:
理科只是爲自己插上騰飛的翅膀,文科才能讓你飛黃騰達,同意的點贊,謝謝!
贈送原創詩歌公衆號“天一色”,以饗讀者!


發佈於 2020-12-18

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章