數字音頻壓縮技術的歷史及其發展現狀

歷史回顧
  數字技術的出現與應用爲人類帶來了深遠的影響,人們如今已生活在一個幾乎數字化的世界之中,而數字音頻技術則稱得上是應用最爲廣泛的數字技術之一,CDVCD等早已走進千家萬戶,數字化廣播正在全球範圍內逐步得到開展,正是這些與廣大消費者密切相關
的產品及應用成爲了本文將要介紹的主題:數字音頻壓縮技術得以產生和發展的動力。
  1、音頻壓縮技術的出現及早期應用
  音頻壓縮技術指的是對原始數字音頻信號流(PCM編碼)運用適當的數字信號處理技術,在不損失有用信息量,或所引入損失可忽略的條件下,降低(壓縮)其碼率,也稱爲壓縮編碼。它必須具有相應的逆變換,稱爲解壓縮或解碼。音頻信號在通過一個編解碼系統後可能引入大量的噪聲和一定的失真。
  數字信號的優勢是顯而易見的,而它也有自身相應的缺點,即存儲容量需求的增加及傳輸時信道容量要求的增加。以CD爲例,其採樣率爲44.1KHz,量化精度爲16比特,則1分鐘的立體聲音頻信號需佔約10M字節的存儲容量,也就是說,一張CD唱盤的容量只有1小時左右。當然,在帶寬高得多的數字視頻領域這一問題就顯得更加突出。是不是所有這些比特都是必需的呢?研究發現,直接採用PCM碼流進行存儲和傳輸存在非常大的冗餘度。事實上,在無損的條件下對聲音至少可進行41壓縮,即只用25%的數字量保留所有的信息,而在視頻領域壓縮比甚至可以達到幾百倍。因而,爲利用有限的資源,壓縮技術從一出現便受到廣泛的重視。
  對音頻壓縮技術的研究和應用由來已久,如A律、u律編碼就是簡單的準瞬時壓擴技術,並在ISDN話音傳輸中得到應用。對語音信號的研究發展較早,也較爲成熟,並已得到廣泛應用,如自適應差分PCMADPCM)、線性預測編碼(LPC)等技術。在廣播領域,NICAMNear Instantaneous Companded Audio Multiplex - 準瞬時壓擴音頻複用)等系統中都使用了音頻壓縮技術。
  2、音頻壓縮算法的主要分類及典型代表
  一般來講,可以將音頻壓縮技術分爲無損(lossless)壓縮及有損(lossy)壓縮兩大類,而按照壓縮方案的不同,又可將其劃分爲時域壓縮、變換壓縮、子帶壓縮,以及多種技術相互融合的混合壓縮等等。各種不同的壓縮技術,其算法的複雜程度(包括時間複雜度和空間複雜度)、音頻質量、算法效率(即壓縮比例),以及編解碼延時等都有很大的不同。各種壓縮技術的應用場合也因之而各不相同。
  (1)時域壓縮(或稱爲波形編碼)技術是指直接針對音頻PCM碼流的樣值進行處理,通過靜音檢測、非線性量化、差分等手段對碼流進行壓縮。此類壓縮技術的共同特點是算法複雜度低,聲音質量一般,壓縮比小(CD音質>400kbps),編解碼延時最短(相對其它技術)。此類壓縮技術一般多用於語音壓縮,低碼率應用(源信號帶寬小)的場合。時域壓縮技術主要包括G.711ADPCMLPCCELP,以及在這些技術上發展起來的塊壓擴技術如NICAM、子帶ADPCMSB-ADPCM)技術如G.721G.722Apt-X等。
  (2)子帶壓縮技術是以子帶編碼理論爲基礎的一種編碼方法。子帶編碼理論最早是由Crochiere等於1976年提出的。其基本思想是將信號分解爲若干子頻帶內的分量之和,然後對各子帶分量根據其不同的分佈特性採取不同的壓縮策略以降低碼率。通常的子帶壓縮技術和下面介紹的變換壓縮技術都是根據人對聲音信號的感知模型(心理聲學模型),通過對信號頻譜的分析來決定子帶樣值或頻域樣值的量化階數和其它參數選擇的,因此又可稱爲感知型(Perceptual)壓縮編碼。這兩種壓縮方式相對時域壓縮技術而言要複雜得多,同時編碼效率、聲音質量也大幅提高,編碼延時相應增加。一般來講,子帶編碼的複雜度要略低於變換編碼,編碼延時也相對較短。
  由於在子帶壓縮技術中主要應用了心理聲學中的聲音掩蔽模型,因而在對信號進行壓縮時引入了大量的量化噪聲。然而,根據人類的聽覺掩蔽曲線,在解碼後,這些噪聲被有用的聲音信號掩蔽掉了,人耳無法察覺;同時由於子帶分析的運用,各頻帶內的噪聲將被限制在頻帶內,不會對其它頻帶的信號產生影響。因而在編碼時各子帶的量化階數不同,採用了動態比特分配技術,這也正是此類技術壓縮效率高的主要原因。在一定的碼率條件下,此類技術可以達到完全透明的聲音質量(EBU音質標準)。
  子帶壓縮技術目前廣泛應用於數字聲音節目的存儲與製作和數字化廣播中。典型的代表有著名的MPEG-1、層MUSICAM),以及用於Philips DCC中的PASCPrecision Adaptive Subband Coding,精確自適應子帶編碼)等。
  (3)變換壓縮技術與子帶壓縮技術的不同之處在於該技術對一段音頻數據進行線性的變換,對所獲得的變換域參數進行量化、傳輸,而不是把信號分解爲幾個子頻段。通常使用的變換有DFTDCT(離散餘弦變換)、MDCT等。根據信號的短時功率譜對變換域參數進行合理的動態比特分配可以使音頻質量獲得顯著改善,而相應付出的代價則是計算複雜度的提高。
  變換域壓縮具有一些不完善之處,如塊邊界影響、預迴響、低碼率時聲音質量嚴重下降等。然而隨着技術的不斷進步,這些缺陷正逐步被消除,同時在許多新的壓縮編碼技術中也大量採用了傳統變換編碼的某些技術。
  有代表性的變換壓縮編碼技術有DolbyAC-2AT&TASPECAudio Spectral Perceptual Entropy Coding)、PACPerceptualAudioCoder)等。
  3、音頻壓縮技術的標準化和MPEG-1
  由於數字音頻壓縮技術具有廣闊的應用範圍和良好的市場前景,因而一些著名的研究機構和大公司都不遺餘力地開發自己的專利技術和產品。這些音頻壓縮技術的標準化工作就顯得十分重要。CCITT(現ITU-T)在語音信號壓縮的標準化方面做了大量的工作,制訂瞭如G.711G.721G.728等標準,並逐漸受到業界的認同。
  在音頻壓縮標準化方面取得巨大成功的是MPEG-1音頻(ISO/IEC11172-3)。在MPEG-1中,對音頻壓縮規定了三種模式,即層、層(即MUSICAM,又稱MP2),層(又稱MP3)。由於在制訂標準時對許多壓縮技術進行了認真的考察,並充分考慮了實際應用條件和算法的可實現性(複雜度),因而三種模式都得到了廣泛的應用。VCD中使用的音頻壓縮方案就是MPEG-1;而MUSICAM由於其適當的複雜程度和優秀的聲音質量,在數字演播室、DABDVB等數字節目的製作、交換、存儲、傳送中得到廣泛應用;MP3是在綜合MUSICAMASPEC的優點的基礎上提出的混合壓縮技術,在當時的技術條件下,MP3的複雜度顯得相對較高,編碼不利於實時,但由於MP3在低碼率條件下高水準的聲音質量,使得它成爲軟解壓及網絡廣播的寵兒。可以說,MPEG-1音頻標準的制訂方式決定了它的成功,這一思路甚至也影響到後面將要談到的MPEG-2MPEG-4音頻標準的制訂。
  最新進展
  1、多聲道音頻信號壓縮與DolbyAC-3
  隨着技術的不斷進步和生活水準的不斷提高,原有的立體聲形式已不能滿足受衆對聲音節目的欣賞要求,具有更強定位能力和空間效果的三維聲音技術得到蓬勃發展。而在三維聲音技術中最具代表性的就是多聲道環繞聲技術。
  更準確地說,環繞聲應該是一種聲音恢復形式,其新技術的含量實際表現在隨着這種形式發展起來的一些數字壓縮標準上。環繞聲技術發展至今已相當成熟,已日漸成爲未來聲音形式的主流。有鑑於此,1992CCIRITU-R)以建議的形式約定了多聲道聲音系統的結構及向下兼容變換的標準,即CCIR Recommendation 775。其中主要約定了大家熟知的5.1聲道形式及7.1聲道形式,而在對環繞聲壓縮的研究上也產生了許多專利技術,如DolbySurroundPro-LogicTHXDolbyAC-3DTSMPEG-2等。這些技術在不同的場合,尤其是在影劇院、家庭影院系統,及將來的高清晰度電視(HDTV)等系統中得到廣泛的應用。
  (1Dolby AC-3技術是由美國杜比實驗室主要針對環繞聲開發的一種音頻壓縮技術。在5.1聲道的條件下,可將碼率壓縮至384kbps,壓縮比約爲101Dolby AC-3最初是針對影院系統開發的,但目前已成爲應用最爲廣泛的環繞聲壓縮技術之一。
  Dolby AC-3是一種感知型壓縮編碼技術,其編碼器功能框圖如圖1所示。
  在Dolby AC-3中,音頻輸入以音頻塊爲單位,塊長度爲512個樣值,在48KHz採樣率時即爲10.66毫秒,各聲道單獨處理;音頻輸入在經過3Hz高通濾波器去除直流成分後,通過另一高頻帶通濾波器以檢測信號的瞬變情況,並用它來控制TDAC變換的長度,以期在頻域分辨率和時域分辨率之間得到最好的折中效果;TDAC變換的長度一般爲512點,而數據塊之間的重疊長度爲256點,即TDAC5.33毫秒進行一次;在瞬變條件下,TDAC長度被等分爲256點,這樣DolbyAC-3的頻域分辨率爲93.75Hz,時域最小分辨率爲2.67毫秒;在圖1中的定點/浮點轉換類似於MPEG-1中比例因子計算的作用,主要是爲了獲得寬的動態範圍,而在分離後的指數部分經編碼後則構成了整個信號大致的頻譜,又被稱爲頻譜包絡;比特分配主要是通過計算解碼後的頻譜包絡(視爲功率譜密度)和掩蔽曲線的相關性來進行的;由於比特分配中採用了前/後向混合自適應比特分配以及公共比特池等技術,因而可使有限的碼率在各聲道之間、不同的頻率分量之間獲得合理的分配;在對尾數的量化過程中,可對尾數進行抖晃處理,抖晃所使用的僞隨機數發生器可在不同的平臺上獲得相同的結果;AC-3的幀結構由同步字、CRC、同步信息(SI)、碼流信息(BSI)、音頻塊和附加數據等組成,幀長度與TDAC變換的長度有關,在長度爲512點時,幀長爲32毫秒,即每秒31.25幀。
  通過以上敘述可見,在Dolby AC-3中,使用了許多先進的、行之有效的壓縮技術。如前/後向混合自適應比特分配、公共比特池、TDAC濾波、頻譜包絡編碼、及低碼率條件下使用的多聲道高頻耦合等。而其中許多技術對其它的多聲道環繞聲壓縮技術的發展都產生了一定的影響。
  可以說,AC-3的出現是杜比公司幾十年來在聲音降噪及編碼技術方面的結晶(從一定的角度來看,編碼技術實際上就是降低編碼噪聲影響的技術),在技術上它具有很強的優勢。因而即使作爲一項專利技術,DolbyAC-3仍然在影院系統、HDTV、消費類電子產品(如LDDVD)及直播衛星等方面獲得了廣泛的應用,得到了衆多廠商的支持,成爲業界事實上的標準。
  (2MPEG-2BC(後向兼容方式),即ISO/IEC13818-3,是另一種多聲道環繞聲音頻壓縮技術。早在1992年初,該方面的討論工作便已初步開展,並於9411月正式獲得通過。MPEG-2BC主要是在MPEG-1CCIRRec.775的基礎上發展起來的。與MPEG-1相比較,MPEG-2BC主要在兩方面做了重大改進。一是支持多聲道聲音形式,二是爲某些低碼率應用場合,如多語聲節目、體育比賽解說等而進行的低採樣率擴展。同時,標準規定的碼流形式還可與MPEG-1的第1和第2層做到前、後向兼容,並可依據CCIR Rec.775做到與雙聲道、單聲道形式的向下兼容,還能夠與Dolby Surround形式兼容。
  在MPEG-2BC中,由於考慮到其前、後向兼容性以及環繞聲音形式的新特點,在壓縮算法中除承襲了MPEG-1的絕大部分技術外,爲在低碼率條件下進一步提高聲音質量,還採用了多種新技術。如動態傳輸通道切換、動態串音、自適應多聲道預測、中央聲道部分編碼(Phantom Coding of Center)、預編碼(Predistortion)等。
  然而,MPEG-2BC的發展和應用並不如MPEG-1那樣一帆風順。通過對一些相關論文的比較可以發現,MPEG-2BC的編碼框圖在標準化過程中發生了重大的變化,上述的許多新技術都是在後期引入的。事實上,正是與MPEG-1的前、後向兼容性成爲MPEG-2BC最大的弱點,使得MPEG-2BC不得不以犧牲碼率的代價來換取較好的聲音質量。一般情況下,MPEG-2BC640kbps以上的碼率才能基本達到EBU“無法區分聲音質量要求。由於MPEG-2BC標準化的進程過快,其算法自身仍存在一些缺陷。這一切都成爲MPEG-2BC在世界範圍內得到廣泛應用的障礙。
  (3DVDDigitalVersatileDisk)是新一代的多媒體數據存儲和交換的標準。在視頻DVD的伴音方式及音頻DVD的聲音格式選擇上,AC-3MPEG-2BC之間的爭奪十分激烈,最後達成的協議如表1所示。可見,多聲道環繞聲音頻壓縮技術標準亟待統一。
 
 
發佈了5 篇原創文章 · 獲贊 2 · 訪問量 6萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章