音視頻基礎_3_音頻壓縮技術簡介

音頻壓縮技術簡介

壓縮/編碼技術與格式之間的關係

由於原始音頻數據(PCM數據)體積很大,不利於存儲和傳輸,所以需要壓縮。壓縮技術也被稱爲編碼技術(Encode),二者基本上是同樣的意思。編碼技術有很多種,比如 MP3 技術,將 PCM 數據編碼之後,會形成新的文件,一般來說使用哪種編碼技術,生成的文件就被稱爲這種格式的文件,有對應的後綴名。例如 MP3 編碼生成的文件就是 .mp3 文件,反過來說,.mp3 文件就是使用了 MP3 編碼技術生成的文件。

音樂播放器在播放 .mp3 文件時,需要按照一定的方式讀取其中的數據,這個過程就叫做解壓縮或解碼(Decode)。一種編碼技術必然包含對應的解碼技術,就如同你可以使用壓縮軟件進行壓縮,也可以用它進行解壓縮。編解碼合起來的英文單詞是 Codec

比特率(碼率)

比特率(bitrate)也叫碼率,是音視頻當中非常重要的一個概念。音頻的比特率是指將模擬聲音信號轉換成數字聲音信號後,單位時間內的二進制數據量,單位是 bit/s 或bps,注意是小寫的 b,即 bit。視頻的比特率我們後面講到的時候會再說。

假設採樣頻率爲44.1kHz,比特深度爲 16,立體聲雙聲道,這樣錄製的 PCM 原始音頻的比特率爲:44100 * 16 * 2 = 1411200 bps = 1411.2 Kbps。

PCM在錄製的時候,比特率爲 1411.2 Kbps,約 1.4 Mbps 每秒,那麼在播放的時候,同樣得是這個比特率,本地播放還好,但是如果是在線播放,帶寬壓力就很大了。以今天動不動就 100Mbps的帶寬來看,這不是什麼問題,但是當年的帶寬可是隻有現在的幾十分之一甚至百分之一,所以必須壓縮。

無損壓縮和有損壓縮

音頻壓縮技術有兩種壓縮方式,分別是有損壓縮和無損壓縮。常見到的 MP3、WMA 都是有損壓縮,有損壓縮會降低原始音頻的採樣頻率和比特深度,並且會移除原始音頻中不容易被人耳聽到的聲音,例如極高頻和極低頻,以及被強低頻遮蔽的高頻聲音等等。

另一種音頻壓縮被稱爲無損壓縮,無損壓縮能夠在100%保存原始音頻的所有數據的前提下,將音頻文件的體積壓縮的更小,而將壓縮後的音頻文件還原後,能夠實現與源文件相同的大小、相同比特率。

無論有損壓縮還是無所壓縮,都使用了複雜的算法,將原始音頻中的數據按照一定的格式重新組織,以此來降低數據量,從而減小比特率。只不過有損壓縮無法完全還原,而無法壓縮可以完全還原。

常見的無損壓縮有如下幾種:

  • WAV:由微軟和 IBM 聯合設計,經過了多次修訂,可用於Windows,MacOS,Linux等多種操作系統。標準的 WAV 文件和 CD 格式一樣,也是 44.1KHz的採樣頻率,16 位量化深度,因此聲音質量和 CD 相差無幾。WAV的特點:真實記錄自然聲波形,基本無數據壓縮,數據量大。其實 WAV 與其說是壓縮格式,不如說是和 PCM 類似的原始音頻格式,因爲就沒有壓縮。
  • APE:一種音頻無損壓縮技術,在音質不降低的前提下,大小壓縮到傳統無損格式文件的一半。
  • FLAC:一套著名的自由開發的音頻壓縮編碼技術,也是無損壓縮。它不會破壞任何原有的音頻信息,所以可以還原音樂光盤音質。2012年以來它已被很多軟件及硬件音頻產品(如CD等)所支持。

常見的有損壓縮格式有:MP3,WMA,AAC,OGG。後面會更詳細的介紹。

MPEG

MPEG(Moving Picture Experts Group,動態圖像專家組)是ISO(International Standardization Organization,國際標準化組織)與IEC(International Electrotechnical Commission,國際電工委員會)於1988年成立的專門針對運動圖像和語音壓縮制定國際標準的組織。

該專家組建於1988年,專門負責爲 CD 建立視頻和音頻標準,而成員都是爲視頻、音頻及系統領域的技術專家。後來,他們制定出 MPEG-X 標準,令音視頻傳播方面進入了數字時代,現在大家說的指的 MPEG-X 版本,就是由 這個組織所制定而發佈的視頻、音頻、數據的壓縮標準。廣爲人知的 MP3,MP4,AAC,以及一些視頻編碼技術都和這些標準相關。

總之,研究音視頻編解碼技術,MPEG 是個繞不開的組織,後面還會多次提到。

MP3 壓縮技術

MP3 全稱是 Moving Picture Experts Group Audio Layer III,即 MPEG Audio Player3,簡稱爲MP3。它被設計用來大幅度地降低音頻數據量。MP3 壓縮技術可以將音樂以1:10 甚至 1:12 的壓縮率壓縮成容量較小的文件,而對於大多數用戶來說,壓縮後的音質與原始音頻相比沒有明顯的下降。

MP3 利用人耳對高頻聲音信號不敏感的特性,將 PCM 數據中的聲音按照頻率劃分成多個頻段,對不同的頻段使用不同的壓縮率,對高頻加大壓縮比(甚至忽略信號),對低頻使用小壓縮比,保證信號不失真。這樣一來就相當於拋棄人耳基本聽不到的高頻聲音,只保留能聽到的低頻部分,從而將聲音用1:10甚至1:12的壓縮率壓縮。MP3 的比特率一般介於128kbps和320kbps之間,完全可以滿足在線播放的需求

用MP3形式存儲的音樂就叫作MP3音樂,能播放MP3音樂的機器就叫作MP3播放器。在剛剛問世時,MP3 非常流行,網上能下載到的大部分音樂都是 MP3 格式,MP3 播放器也非常流行,深受音樂愛好者的歡迎,在國內可以說是90後的集體回憶。然而隨着新的壓縮技術的出現,以及消費者轉向智能手機等原因,現在 MP3 播放器已經慢慢消亡。

WMA 壓縮技術

WMA(Windows Media Audio)是微軟在互聯網音視頻領域的力作。WMA 格式是以減少數據流量但保持音質的方法來達到更高的壓縮率目的 ,其壓縮率可以達到1:18。

以前我們只要提到下載音樂,第一反應就是MP3,其實 MP3 已經不如當年流行,WMA 在壓縮比和音質方面都超過了MP3,現在絕大多數在線音頻試聽網站都使用 WMA。

只可惜 WMA 有兩個缺點:一是當比特率小於128Kbps時,WMA 幾乎在同級別的所有有損編碼格式中表現得最出色,但是超過 128Kbps 後,音質提升就不大了;二是 WMA 標準不開放,完全掌握在微軟手裏。

AAC 壓縮技術

AAC(Advanced Audio Coding),中文名:高級音頻編碼。出現於1997年,由Fraunhofer IIS、杜比實驗室、AT&T、索尼、諾基亞等公司共同開發,目的是取代MP3格式。與MP3不同,它採用了全新的算法進行編碼,更加高效,相對於 MP3,AAC格式的音質更佳,文件更小。

蘋果的iPod和iPod mini都能播放16-320Kbps的AAC文件,在加上蘋果傾力打造的iTunes音樂播放器,爲AAC格式文件的傳播提供了便利。之後多家公司跟進,AAC 現在是除了 MP3 和 WMA 之外最流行的音頻格式。

總的來講,AAC可以說是極爲全面的編碼方式,高碼率下音質非常出色,低碼率下也能保持不錯的音質,非常適合移動通訊、網絡電話、在線廣播等領域,此外,AAC 經常用於視頻中音頻軌的編碼

Ogg

Ogg全稱是OGG Vorbis, Ogg是完全免費、開放和沒有專利限制的音頻編碼技術。OggVorbis文件的擴展名是".ogg"。Ogg文件格式可以不斷地進行大小和音質的改良,而不影響舊有的編碼器或播放器。

可惜 Ogg 出現得太遲了,在播放設備支持方面不如 MP3 和 AAC,在流媒體方面,WMA 已經是壟斷地位,所以 Ogg 一直沒有普及開來。

總結

我們介紹了一些音頻壓縮技術,簡單說了下原理,但是沒有介紹具體的算法。具體算法都很複雜,暫時不是我們研究的重點,以後有機會詳細講。

還是要注意一個關鍵的概念:比特率,即碼率,後面我們在視頻部分還會遇到比特率的概念。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章