第二部分 音頻壓縮編碼
一.有損 ( lossy )/無損 ( lossless )/未壓縮 ( uncompressed )音頻格式
未壓縮音頻是一種沒經過任何壓縮的簡單音頻。未壓縮音頻通常用於影音文件的的 PCM或 WAV音軌。
無損壓縮音頻是對未壓縮音頻進行沒有任何信息 /質量損失的壓縮機制。無損壓縮音頻一般不使用於影音世界,但是存在的格式有無損 WMA或 Matroska裏的 FLAC。
有損壓縮音頻嘗試儘可能多得從原文件刪除沒有多大影響的數據,有目的地製成比原文件小多的但音質卻基本一樣。有損壓縮音頻普遍流行於影音文件,包括 AC3, DTS, AAC, MPEG-1/2/3, Vorbis, 和 Real Audio.
我們也來討論下無損 /有損壓縮過程。只要你轉換成一種有損壓縮音頻格式(例如 wav 轉 MP3),質量上有損失,那麼它就是有損壓縮。從有損壓縮音頻格式轉換成另一有損壓縮音頻格式(例如 Mp3轉 AAC)更槽糕,因爲它不僅會引入原文件存在的損失,而且第 2次編碼也會有損失。
二、語音 (Voice)編碼和音頻 (Audio)編碼
語音編碼主要是針對語音通信系統中的編碼方案,應用在有線或無線通信中;音頻編碼是針對音樂的編碼方案,主要用來更方便地實現對音樂文件進行網絡傳輸和存儲。兩者的差別一方面是頻帶不同,另一方面是壓縮要求不一樣,音樂要求具有高保真度和立體感等要求。 音頻編碼最常見的是 MPEG的音頻編碼。
語音的編碼技術通常分爲三類:波形編碼 、參量編碼 和混合編碼 。其中,波形編碼和參量編碼是兩種基本類型。
波形編碼 是將時間域信號直接變換爲數字代碼,力圖使重建語音波形保持原語音信號的波形形狀。波形編碼的基本原理是在時間軸上對模擬語音按一定的速率抽樣,然後將幅度樣本分層量化,並用代碼表示。解碼是其反過程,將收到的數字序列經過解碼和濾波恢復成模擬信號。它具有適應能力強、語音質量好等優點,但所用的編碼速率高,在對信號帶寬要求不太嚴格的通信中得到應用,而對頻率資源相對緊張的移動通信來說,這種編碼方式顯然不合適。
脈衝編碼調製( PCM)和增量調製(△ M),以及它們的各種改進型自適應增量調製( ADM),自適應差分編碼( ADPCM)等,都屬於波形編碼技術。它們分別在 64以及 16Kbit/s的速率上,能給出高的編碼質量,當速率進一步下降時,其性能會下降較快。
參量編碼 又稱爲聲源編碼,是將信源信號在頻率域或其它正交變換域提取特徵參量,並將其變換成數字代碼進行傳輸。具體說,參量編碼是通過對語音信號特徵參數的提取和編碼,力圖使重建語音信號具有儘可能高的可靠性,即保持原語音的語意,但重建信號的波形同原語音信號的波形可能會有相當大的差別。這種編碼技術可實現低速率語音編碼,比特率可壓縮到 2Kbit/s-4.8Kbit/s ,甚至更低,但語音質量只能達到中等,特別是自然度較低,連熟人都不一定能聽出講話人是誰。線性預測編碼( LPC )及其它各種改進型都屬於參量編碼。
混合編碼 將波形編碼和參量編碼組合起來,克服了原有波形編碼和參量編碼的弱點,結合各自的長處,力圖保持波形編碼的高質量和參量編碼的低速率,在 4-16Kbit/s速率上能夠得到高質量的合成語音。多脈衝激勵線性預測編碼( MPLPC ),規劃脈衝激勵線性預測編碼( KPELPC),碼本激勵線性預測編碼( CELP)等都是屬於混合編碼技術。很顯然,混合編碼是適合於數字移動通信的語音編碼技術。
三、無線通信中常見語音編碼
PHS爲 32kbit/s的 ADPCM編碼, GSM爲 13kbit/s的規則脈衝激勵長期預測 (RPE-LTP)編碼, WCDMA使用的是自適應多速率編碼 (AMR), cdma2000使用的是可變速率編碼 (IS-773, IS-127)。
1、 AMR 編碼
(介紹它的原因是因爲手機中有使用 AMR 鈴聲)。 在 3G多媒體通信的發展過程中,音視頻編碼有了很大的發展。 1999年初 ,3GPP採納了由愛立信、諾基亞、西門子提出的自適應多速率 (AMR)標準作爲第三代移動通信中語音編解碼器的標準。 AMR聲碼器採用代數碼本激勵線性預測 (ACELP:Algebraic Code Excited Linear Prediction)編碼方式。 AMR標準針對不同的應用,分別提出了 AMR- NB, AMR-WB和 AMR-WB+三種不同的協議。 AMR-NB應用於窄帶,而 AMR-WB和 AMR-WB+則應用於寬帶通信中。
對於手機鈴聲, AMR- NB對應的鈴聲文件擴展名是 .amr, AMR-WB對應鈴聲文件擴展名是 .awb。它們不是音樂,而是錄音得到的原聲。
2、 ADPCM編碼
自適應差分脈碼調製 (ADPCM)是在差分脈碼調製 (DPCM)的基礎上發展起來的。 DPCM根據信號的過去樣值預測下一個樣值,並將預測誤差加以量化、編碼,而後進行傳輸,由於預測誤差的幅度變化範圍小於原信號的幅度變化範圍,因此在相同量化噪聲條件下, DPCM的量化比特數小於 PCM,從而達到語音壓縮編碼的目的。 ADPCM與 DPCM比較,兩者主要區別在於 ADPCM中的量化器和預測器採用了自適應控制。同時,在譯碼器中多了一個同步編碼調整,其作用是爲了在同步級連時不產生誤差積累。
20世紀 80年代以來, 32kb/ s的 ADPCM技術已日趨成熟,並接近 PCM的質量,但卻節省一半的信道容量,因而受到重視。 1984年 CCITT提出 G721建議 ,採用動態鎖定量化器,這是一種具有自適應速度控制 32kb/ s的自適應量化器,並將它作爲國際標準化的語音編碼方法。 1986年又對 G721建議進行了修正,稱 G726建議。
ADPCM不適合作音樂的編碼,常用於錄音。雅馬哈的 MMF鈴聲用到 MIDI+PCM/ADPCM技術,其中 PCM和 ADPCM就是模擬音效,包括人聲。
四、各種主流音頻編碼(或格式)的介紹
1、 PCM編碼
PCM( Pulse Code Modulation) ,即脈衝編碼調製,指模擬音頻信號只經過採樣、模數轉換直接形成的二進制序列,未經過任何編碼和壓縮處理。 PCM編碼的最大的優點就是音質好,最大的缺點就是體積大。在計算機應用中,能夠達到最高保真水平的就是 PCM編碼,在 CD、 DVD以及我們常見的 WAV文件中均有應用。
2、 WAVE格式(鈴聲)
這是一種古老的音頻文件格式,由微軟開發。 WAV對音頻流的編碼沒有硬性規定,除了 PCM之外,還有幾乎所有支持 ACM規範的編碼都可以爲 WAV的音頻流進行編碼。 WAV可以使用多種音頻編碼來壓縮其音頻流,不過我們常見的都是音頻流被 PCM編碼處理的 WAV,但這不表示 WAV只能使用 PCM編碼, MP3編碼同樣也可以運用在 WAV中,只要安裝好了相應的 Decode,就可以欣賞這些 WAV了。
在 Windows平臺下,基於 PCM編碼的 WAV是被支持得最好的音頻格式,所有音頻軟件都能完美支持,由於本身可以達到較高的音質的要求,因此, WAV也是音樂編輯創作的首選格式,適合保存音樂素材。因此,基於 PCM編碼的 WAV被作爲了一種中介的格式,常常使用在其他編碼的相互轉換之中,例如 MP3轉換成 WMA。
3、 MP3編碼(鈴聲)
MP3,衆所周知也就是 MPEG-1 Layer 3,是一個意圖達到高的壓縮率同時又能保持相當不錯的音質的有損音頻格式。 Layer 3不是 MPEG Layer 1或 Layer 2的新版,只是與它們不同的複雜的編碼方案。現在有許多可用的 MP3編碼器,其中最高品質的莫過於 Lame,同時它也是開源免費的。
MP3技術上支持多聲道(多於 2個聲道),但從未實施過或者今後也不會了。事實上,你可以編碼源文件爲 pro logic ( II)的多聲道文件變換成立體聲 MP3。
MP3有不同的採樣率和比特率(注意比特率並不是量化精度,而是代表壓縮比),代表不同的音質。網絡上流行的 MP3是 44.1KHz採樣率, 128Kbps比特率的。下表中列出了不同品質的 MP3,其中列表示 SR(採樣頻率 ),範圍 8KHz~48KHz,行表示 BR(比特率),範圍
8Kbps~320Kbps。
MPEG 2.5 Layer 3 |
||||||||||||||
BR(kbps) SR(KHz) |
8 |
16 |
24 |
32 |
40 |
48 |
56 |
64 |
80 |
96 |
112 |
128 |
144 |
160 |
8 |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
11.025 |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
12 |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
MPEG 2 Layer 3 |
||||||||||||||
BR(kbps) SR(KHz) |
8 |
16 |
24 |
32 |
40 |
48 |
56 |
64 |
80 |
96 |
112 |
128 |
144 |
160 |
16 |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
22.05 |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
24 |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
MPEG 1 Layer 3 |
||||||||||||||
BR(kbps) SR(KHz) |
32 |
40 |
48 |
56 |
64 |
80 |
96 |
112 |
128 |
160 |
192 |
224 |
256 |
320 |
32 |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
44.1 |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
48 |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
表二 MP3對應的不同採樣率和比特率
4、 OGG編碼(鈴聲)
網絡上出現了一種叫 Ogg Vorbis的音頻編碼,號稱 MP3殺手! Ogg Vorbis究竟什麼來頭呢? OGG是一個龐大的多媒體開發計劃的項目名稱,將涉及視頻音頻等方面的編碼開發。整個 OGG項目計劃的目的就是向任何人提供完全免費多媒體編碼方案。 OGG的信念就是: OPEN! FREE! Vorbis這個詞彙是特里·普拉特柴特的幻想小說《 Small Gods》中的一個 "花花公子 "人物名。這個詞彙成爲了 OGG項目中音頻編碼的正式命名。目前 Vorbis已經開發成功,並且開發出了編碼器。
Ogg Vorbis是高質量的音頻編碼方案,官方數據顯示: Ogg Vorbis可以在相對較低的數據速率下實現比 MP3更好的音質。 Ogg Vorbis這種編碼也遠比 90年代開發成功的 MP3先進,她可以支持多聲道,這意味着什麼?這意味着 Ogg Vorbis在 SACD、 DTSCD、 DVD AUDIO抓軌軟件的支持下,可以對所有的聲道進行編碼,而不是 MP3只能編碼 2個聲道。多聲道音樂的興起,給音樂欣賞帶來了革命性的變化,尤其在欣賞交響時,會帶來更多臨場感。這場革命性的變化是 MP3無法適應的。
和 MP3一樣, Ogg Vorbis是一種靈活開放的音頻編碼,能夠在編碼方案已經固定下來後還能對音質進行明顯的調節和新算法的改良。因此,它的聲音質量將會越來越好,和 MP3相似, Ogg Vorbis更像一個音頻編碼框架,可以不斷導入新技術逐步完善。和 MP3一樣, OGG也支持 VBR(可變比特率 )。
5、 MPC 編碼
MPC (Muse Pack)高比特率高保真音樂格式。是另外一個令人刮目相看的實力派選手,它的普及過程非常低調,也沒有什麼複雜的背景故事,她的出現目的就只有一個,更小的體積更好的音質! MPC以前被稱作 MP+,很顯然,可以看出她針對的競爭對手是誰。但是,只要用過這種編碼的人都會有個深刻的印象,就是她出衆的音質。
6、 mp3PRO 編碼
2001年 6月 14日,美國湯姆森多媒體公司 (Thomson Multimedia SA)與佛朗赫弗協會 (Fraunhofer Institute)於 6月 14日 發佈了一種新的音樂格式版本,名稱爲 mp3PRO,這是一種基於 mp3編碼技術的改良方案,從官方公佈的特徵看來確實相當吸引人。從各方面的資料顯示, mp3PRO並不是一種全新的格式,完全是基於傳統 mp3編碼技術的一種改良,本身最大的技術亮點就在於 SBR( Spectral Band Replication 頻段複製),這是一種新的音頻編碼增強算法。它提供了改善低位率情況下音頻和語音編碼的性能的可能。這種方法可在指定的位率下增加音頻的帶寬或改善編碼效率。 SBR最大的優勢就是在低數據速率下實現非常高效的編碼,與傳統的編碼技術不同的是, SBR更像是一種後處理技術,因此解碼器的算法的優劣直接影響到音質的好壞。高頻實際上是由解碼器(播放器)產生的, SBR編碼的數據更像是一種產生高頻的命令集,或者稱爲指導性的信號源,這有點駇 idi的工作方式。我們可以看到, mp3PRO其實是一種 mp3信號流和 SBR信號流的混合數據流編碼。有關資料顯示, SBR技術可以改善低數據流量下的高頻音質,改善程度約爲 30%,我們不管這個 30%是如何得來的,但可以事先預知這種改善可以讓 64kbps的 mp3達到 128kbps的 mp3的音質水平(注:在相同的編碼條件下,數據速率的提升和音質的提升不是成正比的,至少人耳聽覺上是這樣的),這和官方聲稱的 64kbps的 mp3PRO可以媲美 128kbps的 mp3的宣傳基本是吻合的。
7、 WMA(鈴聲)
WMA就是 Windows Media Audio編碼後的文件格式,由微軟開發, WMA針對的不是單機市場,而是網絡。競爭對手就是網絡媒體市場中著名的 Real Networks。微軟聲稱,在只有 64kbps的碼率情況下, WMA可以達到接近 CD的音質。和以往的編碼不同, WMA支持防複製功能,她支持通過 Windows Media Rights Manager 加入保護,可以限制播放時間和播放次數甚至於播放的機器等等。 WMA支持流技術,即一邊讀一邊播放,因此 WMA可以很輕鬆的實現在線廣播,由於是微軟的傑作,因此,微軟在 Windows中加入了對 WMA的支持, WMA有着優秀的技術特徵,在微軟的大力推廣下,這種格式被越來越多的人所接受。
8、 RA
RA就是 RealAudio格式,這是各位網蟲接觸得非常多的一種格式,大部分音樂網站的在線試聽都是採用了 RealAudio,這種格式完全針對的就是網絡上的媒體市場,支持非常豐富的功能。最大的閃爍點就是這種格式可以根據聽衆的帶寬來控制自己的碼率,在保證流暢的前提下儘可能提高音質。 RA可以支持多種音頻編碼,包括 ATRAC3。和 WMA一樣, RA不但都支持邊讀邊放,也同樣支持使用特殊協議來隱匿文件的真實網絡地址,從而實現只在線播放而不提供下載的欣賞方式。這對唱片公司和唱片銷售公司很重要,在各方的大力推廣下, RA和 WMA是目前互聯網上,用於在線試聽最多的音頻媒體格式。
9、 APE
APE是 Monkey's Audio提供的一種無損壓縮格式。 Monkey's Audio提供了 Winamp的插件支持,因此這就意味着壓縮後的文件不再是單純的壓縮格式,而是和 MP3一樣可以播放的音頻文件格式。這種格式的壓縮比遠低於其他格式,但能夠做到真正無損,因此獲得了不少發燒用戶的青睞。在現有不少無損壓縮方案種, APE是一種有着突出性能的格式,令人滿意的壓縮比以及飛快的壓縮速度,成爲了不少朋友私下交流發燒音樂的唯一選擇。
10、 AMR(鈴聲 )
AMR(Adaptive Multi-Rate)自適應多速率編碼。是一種應用在手機上的一種語音壓縮格式,也就是說我們用手機錄音而成的文件就是這種格式的。 AMR格式壓縮率較高但是音質相對較差了一點。優點就是我們可以隨心所欲地錄製。
11、 AAC/AAC+
Ø 什麼是 AAC?
AAC代表 Advanced Audio Coding(高級音頻解碼 ),是一種由 MPEG-4標準定義的有損音頻壓縮格式,由 Fraunhofer發展, Dolby, Sony和 AT&T是主要的貢獻者。它被認爲是 MP3的繼承者。 AAC能夠在一條音軌中包括 48條全帶寬(直到 96khz)音頻聲道,加上 15條低頻增強( LFE,限制到 120Hz)聲道,直到 15條數據流並且更多。
其實, AAC的技術早在 1997年就成型了,當時被稱爲 MPEG-2 AAC,但是隨着 2000年 MPEG-4音頻標準的出臺, MPEG-2 AAC 被用在這一標準中,同時追加了一些新的編碼特性,所以它就改稱爲 MPEG-4 AAC 。與 MP3不同, AAC的技術掌握在多家廠商手中,這使得 AAC編碼器非常多,既有純商業的編碼器,也有完全免費的編碼器。純商業的編碼器如 Fraunhofer IIS的 FhG、杜比公司的 Dolby AAC,免費的有 Free AAC、蘋果公司的 iTune, Nero也通過它的 Nero 6提供了 Nero AAC。
AAC是一種高壓縮比的音頻壓縮算法,它的壓縮比可達 20:1,遠遠超過了 AC-3、 MP3等較老的音頻壓縮算法。一般認爲, AAC格式在 96Kbps碼率的表現超過了 128Kbps的 MP3音頻。 AAC另一個引人注目的地方就是它的多聲道特性,它支持 1~48個全音域音軌和 15個低頻音軌。除此之外, AAC最高支持 96KHz的採樣率,其解析能力足可以和 DVD-Audio的 PCM編碼相提並論,因此,它得到了 DVD論壇的支持,成爲了下一代 DVD的標準音頻編碼。
AAC的家族非常龐大,有 9種規格,可適應不同場合應用的需要。其中 LC低複雜性規格去掉了預測和增益控制模塊,降低了複雜度,提高編碼效率,是目前使用得最多的規格。
目前,蘋果、 AT&T和 RealNetworks已經開始提供收費的 AAC音樂下載服務。 AAC也得到了衆多硬件廠商的支持,除了蘋果的 iPOD隨身聽,還有諾基亞的多款手機及松下的部分隨身聽產品可支持 AAC音頻的播放。另外,目前已經有部分 MPEG-1/2解碼芯片中加入了 AAC解碼功能,出現支持 AAC音頻播放的 DVD影碟機肯定是遲早的事情。
Ø 什麼是 HE-AAC(也稱 AAC+)和 LC-AAC?
AAC有兩種 LC AAC與 HE AAC, HE AAC是較新的。 LC意思是 "low complexity"(低複雜性 )而 HE意思是 "high efficiency"(高效性 )。
HE-AAC也稱之爲 AAC SBR/AAC+/aacplus等。注意 HE-AAC注重於低碼流的編碼並很適合多聲道文件(更小的文件尺寸)。
從學術上講, HE-AAC混合了 AAC與 SBR技術,處理低比特率能有較好的效果。 SBR代表的是 Spectral Band Replication(頻段複製 )。 SBR的關鍵是在低碼流下提供全帶寬的編碼而不會產生產生多餘的信號。傳統認爲音頻編碼在低碼流下意味着減少帶寬和降低採樣率或產生令人不快的噪音信號。 SBR解決問題的方法是讓核心編碼去編碼低頻信號,而 SBR解碼器通過分析低頻信號產生高頻信號和一些保留在比特流中的指導信號(通常碼流極低, ~2 kbps)。這也是爲什麼被叫做 Spectral Band Replication的原因,它只是增加音頻的帶寬,而非重建。 (類似的技術也用在 mp3 pro 64kbps能媲美 128kbps的 mp3就是這道理 )
Ø MP4與 AAC
MP4最初是一種音頻格式,和 MPEG-4沒有太大的關係,就像 MP3和 MPEG-3沒有關係一樣。 MP3是 MPEG-1 Audio Layer 3 的縮寫;而 MP4是 MPEG-2 AAC,完完全全是一種音頻壓縮格式, 增加了諸如對立體聲的完美再現、多媒體控制、降噪等新特性,最重要的是, MP4通過特殊的技術實現數碼版權保護,這是 MP3所無法比擬的。
現在市面上的 MP4多數偏向於多媒體播放器,能夠播放 AAC的,可以說是鳳毛麟角。甚至有媒體把 MP4說成是 MPEG4的縮寫,這在以前看來是一個謬論,但是經過商家不斷的炒作,這個謬論也就成爲了真理。現在若果你去電腦城聽到 MP4這個詞,絕對是能播放視頻格式的多媒體播放器的概念,而不是能播放音頻 MP4 AAC的隨身聽。出現這種怪現象不是毫無原因的,上面已提到 AAC有版權保護功能,這也是衆多唱片公司支持 AAC的原因,要使自己的播放器支持 AAC,還得支持付一定的版權費或專利費,另外, AAC的來源也是個問題,不像 MP3那麼開放,網上來源極少,所以目前音頻 MP4播放器發展尚不成熟,鑑於以上現狀,衆商家乾脆“借屍還魂”,把 MP4等同 MPEG-4縮寫而論,這樣也恰好應了 MP4是 MP3的下一代這條規律,除了支持 MP3所具有的音樂播放功能外,還具備強大的 MPEG-4視頻播放能力,另外,恰好“ 4”在“ 3”後,從這點出發,把 MP4等同 MPEG-4是合理的。