音頻格式、編解碼

1.音樂格式分類
音樂格式五花八門,多如牛毛,但不外乎分爲兩大類:


一類爲:音樂指令文件(如MIDI),一般由音樂創作軟件製作而成,它實質上是一種音樂演奏的命令,不包括具體的聲音數據,故文件很小;

另一類爲:聲音文件,是通過錄音設備錄製的原始聲音,其實質上是一種二進制的採樣數據,故文件較大。從播放形式上,聲音文件還可以分爲“音頻流”和“非音頻流”,前者能夠一邊下載一邊收聽,比如“.WMA”、“.RA”、“.MOV”等,後者則不能。所謂流媒體技術就是把連續的影像和聲音信息經過壓縮處理後放上網站服務器,讓用戶一邊下載一邊觀看、收聽,而不需要翟畸個壓縮文件全部下載到自己機器後纔可以觀看的技術。

2.格式、編解碼

(1) MIDI
樂器數字接口(Musical Instrument Digital Interface)的英文縮寫,是數字音樂/電子合成樂器的統一國際標準。MIDI規範由美、曰幾家著名電子樂器廠商於1983年共同制定,目的是解決各種電子樂器間存在的兼容性問題。MIDI規範不僅定義了電腦音樂程序、音樂合成器及其它電子音樂設備交換音樂信號的方式,而且還規定了不同廠家的電子樂器與電腦連接的電纜和硬件及設備間數據傳輸的協議,可用於爲不同樂器創建數字聲音,能很容易地模擬鋼琴、小提琴等傳統樂器的聲音。MIDI本身並不能發出聲音,它是一個協議,只包含用於產生特定聲音的指令,而這些指令則包括調用何種MIDI設備的音色、聲音的強弱及持續的時間等。電腦把這些指令交由聲卡去合成相應的聲音(如依指令發出鋼琴聲或小提琴聲等)。最初,因爲不同MIDI設備的樂器音色排列方法不一,所以會造成同一MIDI文件在不同的設備上會出現完全不同的放音效果(比如一個鋼琴音色的MIDI文件,在不同設備上播放時會變成小提琴或者小號的音色)。爲避免出現這種混亂情況,GM(General MIDI,通用MIDI)標準被提出並得到了Windows操作系統的支持,得到了相當廣泛的應用。它規定了前128種常用樂器音色的編排方式,例如1號是鋼琴、66號是薩克斯管等等。GM標準還描述了成爲GM兼容格式的硬件設備應具有的其它特徵,如GM標準音源同時發音數不少於24,MIDI通道爲16,第10通道爲打擊樂聲部等等,它實際上是對MIDI規範的補充。 Roland公司提出的GS標準在兼容GM標準的基礎上,對其進行了發展,增強了音樂的表現力——它提供比GM標準數量更多的打擊樂器組和更多的特殊音效。GS標準具有廣泛的軟硬件適應性,包括聲卡、音樂愛好者的娛樂樂器到專業音樂器材等。後來,Yamaha公司又提出了基於GM標準的XG標準。相對於保存真實採樣數據的聲音文件,MIDI文件顯得更加緊湊,其文件的大小要比WAV文件小得多——一分鐘的WAV文件約要佔用10MB的硬盤空間,而一分鐘的MIDI卻只有區區的3.4KB。現在,MIDI已經成爲電腦音樂的代名詞。電腦播放MIDI文件時, 有兩種方法合成聲音: FM合成和波表合成。FM合成是通過多個頻率的聲音混合來模擬樂器的聲音;波表合成是將樂器的聲音樣本存儲在聲卡波形表中,播放時從波形表中取出來產生聲音。採用波表合成技術可以產生更逼真的聲音。MIDI文件有幾個變通的格式,其中CMF文件是隨聲卡一起使用的音樂文件,與MIDI文件非常相似,只是文件頭略有差別;另一種MIDI文件是Windows使用的RIFF文件的一種子格式,稱爲RMID,擴展名爲RMI。

(2)WAV
由Microsoft公司開發的一種WAV聲音文件格式,是如今電腦上最爲常見的聲音文件格式,它符合RIFF(Resource Interchange File Format)文件規範,用於保存Windows平臺的音頻信息資源,被Windows平臺及其應用程序所廣泛支持。Wave格式支持MSADPCM、CCITTALaw、CCITT μ Law和其它壓縮算法,支持多種音頻位數、採樣頻率和聲道,但其缺點是文件體積較大(一分鐘44kHZ、16bit Stereo的WAV文件約要佔用10MB左右的硬盤空間),所以不適合長時間記錄。

(3)MPEG
(Moving Picture Experts Group,活動圖像專家組)代表的是MPEG活動影音壓縮標準,MPEG音頻文件指的是MPEG標準中的聲音部分,即MPEG音頻層(MPEG Audio Layer)。MPEG音頻文件根據壓縮質量和編碼複雜程度的不同可分爲三層(MPEG Audio Layer 1/2/3),分別與MP1、MP2和MP3這三種聲音文件相對應。MPEG音頻編碼具有很高的壓縮率,MP1和MP2的壓縮率分別爲4∶1和6∶1~8∶1,而MP3的壓縮率則高達10∶1~12∶1,也就是說一分鐘CD音質的音樂,未經壓縮需要10MB存儲空間,而經過MP3壓縮編碼後只有1MB左右,同時其音質基本保持不失真。因此,目前Internet上的音樂格式以MP3最爲常見。MP3爲降低聲音失真採取了名爲“感官編碼技術”的編碼算法:編碼時先對音頻文件進行頻譜分析,然後用過濾器濾掉噪音電平,接着通過量化的方式將剩下的每一位打散排列,最後形成具有較高壓縮比的MP3文件,並使壓縮後的文件在回放時能夠達到比較接近原音源的聲音效果。雖然它是一種有損壓縮,但是它的最大優勢是以極小的聲音失真換來了較高的壓縮比。
(4)MP3
問世不久,就憑着較高的壓縮比(12:1)和較好的音質創造了一個全新的音樂領域。然而,MP3的開放性卻最終不可避免地導致了版權之爭。在這樣的背景下,文件更小、音質更佳,同時還能有效保護版權的MP4就應運而生了。MP4與MP3之間其實並沒有必然的聯繫。首先,MP3是一種音頻壓縮的國際技術標準,而MP4卻是一個商標的名稱。其次,它採用的音頻壓縮技術也迥然不同,MP4採用的是美國電話電報公司(AT&T)所研發的、以“知覺編碼”爲關鍵技術的a2b音樂壓縮技術(http://www.a2bmusic.com ),可將壓縮比成功地提高到15:1(最大可達到20:1)而不影響音樂的實際聽感。同時,MP4在加密和授權方面也做了特別的設計。它有如下特點:(1)每首MP4樂曲就是一個擴展名爲.exe的可執行文件,在Windows裏直接雙擊就可以運行播放,十分方便。MP4的這個優點同時又是它的先天缺陷---容易感染電腦病毒!(2)更小的體積!更好的音質?相對先進的a2b音頻壓縮技術的採用,使MP4文件大小僅爲MP3的3/4左右,從這個角度來看,MP4更適合在Internet上傳播,而且據說音質也更勝一籌,但我怎麼也沒聽出它比MP3的音質更爲優越。(3)獨特的數字水印。MP4樂曲採用了名爲“Solana”技術的數字水印,可方便地追蹤和發現盜版發行行爲。而且,任何針對MP4的非法解壓行爲,都可能導致MP4原文件的損毀。(4)支持版權保護。MP4樂曲還內置了包括與作者、版權持有者相關的文字、圖像等版權說明,既可聲明版權,又表示了對作者和演唱者的尊重。(5)比較完善的功能。MP4可獨立調節左右聲道音量控制;內置波形/分頻動態音頻顯示和音樂管理器,可支持多種彩色圖像、網站鏈接及無限制的滾動顯示文本
(5)WMA
就是Windows Media Audio的縮寫,是微軟自己開發的Windows Midea Audio技術。它和Windows Midea Video一樣,經歷了幾代改良後,變得非常出色。比起老掉牙的MP3壓縮技術,WMA無論從技術性能(支持音頻流)還是壓縮率(比MP3高一倍)都遠遠把MP3拋在後面了。 據微軟聲稱,用它來製作接近CD品質的音頻文件,其體積僅相當於MP3的1/3。在48Kbps的傳送速率下即可得到接近CD品質(Near-CD Quality)的音頻數據流,在64Kbps的傳送速率下可以得到與CD相同品質的音樂,而當連接速率超過96Kbps後則可以得到超過CD的品質。

(6)MPC
(MusePaCk)原先又被稱爲MPEGPlus(.mp+),是由德國人Andree Buschmann開發的一種完全免費的高品質音頻格式。在其問世之前,Lame MP3是公認音質最好的有損壓縮方案,追求音質的人對它趨之若鶩。但現在這個桂冠無疑該讓給MPC了,在中高碼率下,MPC可以做到比MP3更好音質。在高碼率下,MPC的高頻要比MP3細膩不少,可以在節省大量空間的前提下獲得最佳音質的音樂欣賞,是目前最適合用於音樂欣賞的有損編碼。不僅僅是音質,MPC還有編碼速度快的優點,經MPC現任負責人Frank Klemm改良後的1.14版編碼器,比慢工出細活的LAME要快得多!其實如果你沒有MP3隨身聽,只是在自己的電腦上製作、播放音樂,完全可以棄MP3而轉投MPC,因爲後者在編碼速度和音質上的表現絕對會讓你徹底忘記MP3的!

(7)ogg
開放源代碼的Ogg Vorbis(http://www.xiph.orghttp://www.vorbis.com),作爲開放源...些變故之後,Ogg Vorbis終於在2002年7月釋出了1.0版本。由於開放源碼的東西向來都缺少槍手爲其搖旗吶喊,所以國內並不是有很多的人瞭解Ogg Vorbis。Ogg Vorbis 是一種音頻壓縮格式,類似於MP3等現有的通過有損壓縮算法進行音頻壓縮的音樂格式。但有一點不同的是,Ogg Vorbis格式是完全免費、開放源碼且沒有專利限制的。Vorbis 是這種音頻壓縮機制的名字,而Ogg則是一個計劃的名字,該計劃意圖設計一個完全開放源碼的多媒體系統。開放源代碼能爲用戶在經濟上帶來收益,這一點很多人都知道了,但不能忘記的是Ogg Vorbis的技術也不是蓋的。Ogg Vorbis文件的擴展名是.OGG。這種文件的設計格式是非常靈活的。它的最大特點是在文件格式已經固定下來後還能對音質進行明顯的調節和新算法。現在創建的OGG文件可以在未來的任何播放器上播放,因此,這種文件格式可以不斷地進行大小和音質的改良,而不影響舊有的編碼器或播放器。在壓縮技術上,Ogg Vorbis的最主要特點是使用了VBR(可變比特率)和ABR(平均比特率)方式進行編碼。與MP3的CBR(固定比特率)相比可以達到更好的音質。Ogg Vorbis其他技術特性還包括:支持類似於MP3的ID3信息,但比MP3要靈活而又完整得多,實際上可以填寫隨意多的信息。Vorbis還具有比特率縮放功能,可以不用重新編碼便可調節文件的比特率。Vorbis文件可以被分成小塊並以樣本粒度(granularity,專業術語,指數據可以被分割的最小尺寸)進行編輯;Vorbis支持多通道(大於2)音頻流並使用了獨創性的處理技術;Vorbis文件可以以邏輯方式相連接等。
(8)流式音頻:RealMedia(RA/RM/RAM)
RealMedia採用的是RealNetworks公司自己開發的Real G2 Codec,它具有很多先進的設計,例如,SVT(Scalable Video Technology),該技術可以讓速度較慢的電腦不需要解開所有的原始圖像數據也能流暢觀看節目;雙向編碼(Two-Encoding)技術類似於VBR,它可通過預先掃描整個影片,根據帶寬的限制選擇最優化壓縮碼率。RealMedia音頻部分採用的是RealAudio,它具有21種編碼方式,可實現聲音在單聲道、立體聲音樂不同速率下的壓縮。

流式音頻:QuickTime(MOV)
QuickTimeApple的QuickTime是最早的視頻工業標準,在1999年發佈的QuickTime 4.0版本後開始支持真正的實時播放,其格式爲“.mov”。它的視頻壓縮部分採用Sorenson Video技術,該技術支持VBR(Variable Bit Rate),也就是我們常說的動態碼率,它可以動態地分配帶寬以儘可能小的文件獲得最好的播放效果,並能使在解壓縮時獲得平滑流暢的畫面。音頻部分QuickTime採用一種名爲QDesiglMusic的技術,據說是一種比MP3更好的音頻流技術。
VQF即TwinVQ(Transform-domain Weighted Interleave Vector Quantization),是由NTT(Nippon Telegraph and Telephone)與Yamaha共同開發的一種音頻壓縮技術。VQF的音頻壓縮率比標準的MPEG音頻壓縮率高出近一倍,可以達到18:1左右甚至更高。也就是說把一首4分鐘的歌曲(WAV文件)壓成MP3,大約需要4MB左右的硬盤空間,而同一首歌曲,如果使用VQF音頻壓縮技術的話,那只需要2MB左右的硬盤空間。因此,在音頻壓縮率方面,MP3和RA都不是VQF的對手。 如此之高的壓縮率是否會影響音質呢?實際聆聽的結果告訴我們——不會。當VQF以44KHz、80kbit/s的音頻採樣率壓縮音樂時,它的音質優於44KHz、128kbit/s的MP3,當VQF以44KHz、96kbit/s的頻率壓縮時,它的音質幾乎等於44KHz、256kbit/s的MP3!經SoundVQ壓縮後的音頻文件在進行回放效果試聽時,幾乎沒有人能聽出它與原音頻文件的差異。

(9)AIFF(AIF/AIFF)
AIFF是音頻交換文件格式(Audio Interchange File Format)的英文縮寫,是Apple公司開發的一種聲音文件格式,被Macintosh平臺及其應用程序所支持,Netscape Navigator瀏覽器中的LiveAudio也支持AIFF格式,SGI及其它專業音頻軟件包也同樣支持AIFF格式。AIFF支持ACE2、ACE8、MAC3和MAC6壓縮,支持16位44.1kHz立體聲。

(10)Audio(AU)
Audio文件是Sun微系統公司推出的一種經過壓縮的數字聲音格式。AU文件原先是UNIX操作系統下的數字聲音文件。由於早期Internet上的Web服務器主要是基於UNIX的,所以.AU格式的文件在如今的Internet中也是常用的聲音文件格式,Netscape Navigator瀏覽器中的LiveAudio也支持Audio格式的聲音文件。

(11)Voice(VOC)
Voice文件是新加坡著名的多媒體公司Creative Labs開發的聲音文件格式,多用於保存Creative Sound Blaster系列聲卡所採集的聲音數據,被Windows平臺和DOS平臺所支持,支持CCITTA Law和CCITTμLaw等壓縮算法。在DOS程序和遊戲中常會遇到這種文件,它是隨聲卡一起產生的數字聲音文件,它與WAV文件的結構相似,可以通過一些工具軟件方便地互相轉換。

(12)Module(MOD、S3M、XM、MTM、FAR、KAR、IT)
模塊(Module)格式同時具有MIDI與數字音頻的共同特性——既包括如何演奏樂器的指令,又保存了數字聲音信號的採樣數據。因此,其聲音回放質量對音頻硬件的依賴性較小,也就是說,在不同的機器上可以獲得基本相似的聲音回放質量。模塊文件根據不同的編碼方法有MOD、S3M、XM、MTM、FAR、KAR、IT等多種不同格式。
(13)關於APE與FLAC
兩者都爲無損音頻壓縮格式。
文件大小:FLAC稍大
推薦設置下的編碼速度:FLAC慢很多。
解壓速度:APE慢很多。
硬件設備支持:FLAC佔絕對優勢。
播放容錯度:APE損壞只有極少量播放軟件(我只見到WINAMP)支持,FLAC輕易跳過錯誤部分。
解壓容錯度(最致命的問題):APE損壞整首歌曲無法解壓,FLAC損壞可去除錯誤部分輕易解壓(如果錯誤很少,跳過一下聽覺是可以忍受的)。文件損壞是確實存在的(一般音樂網站上下載回來mp3不少是損壞的),上傳(應該是最容易出現錯誤)、下載(最少出現錯誤,但上傳的有錯下載再好也沒用)、代理下載、病毒破壞等都有可能導致文件損壞。沒遇到只是因爲你接觸的不夠多

FLAC

FLAC代表 Free Lossless Audio Codec - 免費的無損音頻壓縮 。
簡而言之,FLAC與MP3相仿,但是是無損壓縮的,也就是說音頻以FLAC方式壓縮不會丟失任何信息。這種壓縮與Zip的方式類似,但是FLAC將給你更大的壓縮比率,因爲FLAC是專門針對音頻的特點設計的壓縮方式,並且你可以使用播放器播放FLAC壓縮的文件,就象通常播放你的MP3文件一樣(現在已經有許多汽車播放器和家用音響設備支持FLAC,在FLAC的網站上你可以找到這些設備廠家的連接)。
FLAC是免費的並且支持大多數的操作系統 ,包括Windows, \"unix\" (Linux, *BSD, Solaris, OS X, IRIX), BeOS, OS/2, 和Amiga。並且FLAC提供了在開發工具autotools, MSVC, Watcom C, 和Project Builder上的build系統。
FLAC項目包括以下幾個方面:
1.數據流的格式
2.以庫的形式提供的參考編碼器和解碼器
3.flac, 一個以命令行方式工作的可以編解碼FLAC文件的程序(譯註:有些象Lame吧?)
4.meteflac, 以命令行方式工作的FLAC文件的metedata編輯器
5.不同音頻播放器的輸入插件

我們所說的“FLAC是免費的”不僅僅意味着你可以不花錢而得到它。更重要的是FLAC的文件格式是對公衆完全開放的,你可以以任何目的使用它(FLAC 項目只保留維護 FLAC 格式規格和確認兼容特性的權利),FLAC的文件格式和編碼/解碼的實現方式都不受任何已知專利的限制。還有,所有的源代碼都在開放源代碼的授權方式下可以得到。 FLAC是世界上第一個完全開放和免費的無損音頻壓縮格式 。

FLAC的特性:

無損失壓縮: 被編碼的音頻(PCM)數據沒有任何信息損失,解碼輸出的音頻與編碼器的輸入的每一個字節都是一樣的。每個數據幀都有一個當前幀的 16-bit CRC 校驗碼,用於監測數據傳輸錯誤。對整段音頻數據,在文件頭中還保存有一個針對原始未壓縮音頻數據的MD5標記,用於在解碼和測試時對數據進行校驗。

快速: FLAC更看重解碼的速度。解碼只需要整數運算,並且相對於大多數編碼方式而言,對計算速度要求很低。在很普通的硬件上就可以輕鬆實現實時解碼。
硬件支持: 由於FLAC提供了免費的解碼範例,而且解碼的複雜程度低,所以FLAC是目前唯一獲得硬件支持的無損壓縮編碼。

可以流化: FLAC的每個數據幀都包含了解碼所需的全部信息。解碼當前幀無需參照它前面或後面的數據幀。FLAC使用了同步代碼和CRC(類似於MPEG等編碼格式),這樣解碼器在數據流中跳躍定位時可以有最小的時間延遲。

可以定位: FLAC支持快速採樣精確定位。這不僅對於播放有益,更使得FLAC文件便於編輯。
富於彈性的metedata: 可以定義和實現新類型的metedata數據塊,而不會影響舊的數據流和解碼器的使用。目前已有的metedata類型包括tag,cue表,和定位表。已經註冊的應用程序可以定義自己專用的metedata類型(譯註:這一點與MIDI標準相似)。

非常適合於存檔應用: FLAC是一個開放的編碼格式,並且沒有任何數據的損失,你可以將它轉換爲你需要的任何其他格式。除了每個數據幀的CRC和MD5標記對數據完整性的保障,flac(譯註:FLAC項目提供的命令行方式編碼工具)還提供了一個verify(校驗)選項,當使用該選項進行編碼的時候,編碼的同時就會立即對已編碼數據進行解碼並與原始輸入數據進行比較,一旦發現不同就會退出並且報警提示。(譯者:怎麼樣,這樣壓縮出來的東西還有什麼不放心的?)

便於對CD進行備份: FLAC有一個“cue表”metedata數據塊用於保存CD的內容列表和所有音軌的索引點。你可以將一張CD保存到一個單一文件,並導入CD的cue表格,這樣一個FLAC文件就可以完整地記錄整張CD的全部信息。當你的原來的CD損壞的時候,你就可以用這個文件恢復出與原來一模一樣的CD副本。

抗損傷: 由於FLAC的幀結構,使得一旦發生數據流的損壞,損失會被限制在受損傷的數據幀之內。一般只是會丟失很短的一個片段。而很多其他無損音頻壓縮格式在遇到損傷的時候,一個損傷就會造成後面所有數據的丟失。

FLAC不具有的特性:

數據縮水。FLAC是專門並且僅僅爲無損壓縮而設計的,您可以選用許多其他優秀的有損壓縮方式如Vorbis, MPC, 和MP3(LAME提供了一個優秀的開放源代碼的實現)。

SDMI(例如cetera)兼容。FLAC不準備支持任何複製保護方法,實際上這些手段最終都是在浪費數據。(從另一個角度看,由於所有這些手段最終都被證明是無效的,所以也可以說FLAC把這些無用數據壓縮到了零!)當然我們不能阻止某些人利用專用的meteblock進行復制保護,但是他們的保護只會在他們自己解碼產品上有效,其他解碼器會跳過這些專門的meteblock的。

 


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章