音頻基礎知識

一直以來對音頻沒有一個整體的梳理,對音頻的一些概念理解不是特別深。像分貝,採樣率,採樣深度等。

數字音頻處理大多使用採樣率和位深這兩種技術直接存儲音頻數據。

脈衝編碼調製(即 PCM)是最流行的數字音頻技術(在使用光盤時較爲普及)之一。
音頻按設定的時間間隔進行採樣,採樣波在採樣點的振幅使用樣本的位深存儲爲數字值。

  • 線性 PCM在 CD 中使用 44100 Hz 的採樣率,適合改編音樂;
  • 16000 Hz 的採樣率更適合改編語音。
  • 交錯模式
    • 數字音頻信號存儲的方式。數據以連續幀的方式存放,即首先記錄幀1的左聲道樣本和右聲道樣本,再開始幀2的記錄…
  • 非交錯模式
    • 首先記錄的是一個週期內所有幀的左聲道樣本,再記錄所有右聲道樣本。

採樣率

根據 Nyquist-Shannon 定理,以數字形式採集的任何聲波,採樣率通常需要至少是其最高頻率的兩倍。
* 要表示人類聽覺範圍 (20-20000 Hz) 內的音頻
* 數字音頻格式必須至少每秒採樣 40000 次,CD 音頻使用 44100 Hz 的採樣率,部分原因也在於此。

採樣位深(也叫量化精度,採樣深度,取樣值,採樣值)

就是將採樣樣本幅度量化。位深影響給定音頻樣本的動態範圍。位深越高,表示的振幅越精確。如果在同一音頻樣本內有很多響亮和柔和的聲音,則需要更大的位深才能正確表示這些聲音。

動態範圍就是音頻係數記錄與重放時最大不失真信號與系統本底噪聲之比的對數值,單位是分貝。當進行頻率採樣時,較高的量化精度可以提供更多可能性的振幅值,從而產生更爲大的振動範圍,更高的信噪比,提高保真度。

  • 增高位深還會降低音頻樣本內的信噪比。
  • CD 音樂音頻使用 16 位的位深。
  • DVD 音頻使用 24 位的位深
  • 大多數電話設備使用 8 位的位深。
    (某些壓縮技術可以補償較小位深的不足,但往往會有損耗。)
  • 常見的16Bit(16比特),可以記錄大概96分貝的動態範圍,24Bit就大概是144dB。每位6dB

分貝

是量度兩個相同單位之數量比例的單位,常用dB表示。

聲學中,響度也是人耳可以聽到的聲音的響度(幅度)範圍非常寬。假設人能夠聽到的最小聲級(聲音響度)別爲1,最大的聲級達到10的11次方,處理如此寬的聲級範圍非常不方便。
因此聲音的響度單位通常採用對數標度,稱爲分貝。

  • 人的耳朵可以聽到的聲音頻率範圍大約是20~20000Hz,並且隨着年齡和健康狀況的變化而變化
  • 持續暴露在85分貝的噪音中會對人體造成危害。過度暴露在噪音中會對耳蝸中的毛細胞造成損傷。
  • 平日裏正常說話的音量大約是40至60分貝,演唱會現場則是110至120分貝
  • 堵車時按喇叭產生的噪音爲85分貝,摩托車的轟鳴聲是95分貝,警笛聲爲120分貝,而槍支、煙花的爆炸聲則高達150分貝。

聲道數

即聲音的通道的數目。常有單聲道和立體聲之分,單聲道的聲音只能使用一個喇叭發聲(有的也處理成兩個喇叭輸出同一個聲道的聲音),立體聲可以使兩個喇叭都發聲(一般左右聲道有分工) ,更能感受到空間效果,當然還有更多的通道數。

音頻爲什麼編碼

音頻由波形組成,包括不同頻率和振幅的波的疊加。在數字媒體內表示這些波形,需要對波形進行採樣。
* 其採樣率需要(至少)可以表示您要複製的最高頻率的聲音;
* 同時還需要存儲足夠的位深,以表示聲音樣本中波形的適當振幅(響度和柔度)。
* 聲音處理設備重建頻率的能力稱爲其頻率響應,創造適當響度和柔度的能力稱爲其動態範圍。這些術語通常統稱爲聲音設備的保真度

常見音頻格式

  • wav
  • flac
  • m4a
  • ape
  • wma
  • ra

常見音頻編碼壓縮算法

  • aac
  • mp3
  • ogg
  • mpc
  • opus

音頻編碼分類

  • 波形編碼:
    • 原理:它只對語音信號進行採樣和量化處理。
    • 優點:編碼方法簡單,延遲時間短,音質高,重構的語音信號與原始語音信號幾乎沒有差別
    • 缺點:編碼速率比較高(64 kbit/s),對傳輸通道的錯誤比較敏感。
    • 最簡單的波形編碼方法是PCM(Pulse Code Modulation,脈衝編碼調製)
  • 參數編碼:
    • 原理:從語音波形信號中提取生成語音的參數,使用這些參數通過語音生成模型重構出語音,使重構的語音信號儘可能地保持原始語音信號的語意。
    • 優點:編碼速率較低,可以達到2.4 kbit/s
    • 缺點:與原始語音信號的波形可能會存在較大的區別、失真會比較大。
    • 典型的參數編碼方法爲LPC(Linear Predictive Coding,線性預測編碼
  • 混合編碼
    • 克服了原有波形編碼與參數編碼的弱點, 並且結合了波形編碼的高質量和參數編碼的低數據率, 取得了比較好的效果。

音頻編碼技術比較

在這裏插入圖片描述
說明:質量評價共五個等級(1、2、3、4、5),其中5.0爲最高分。

上表中各種算法、應用領域中縮略語的中文和英文全稱參見下面說明。

  • PCM:Pulse Code Modulation,脈衝編碼調製。
  • ADPCM:Adaptive Differential Pulse Code Modulation,自適應差分脈衝編碼調製。
  • SB-ADPCM:Subband Adaptive Differential Pulse Code Modulation,子帶-自適應差分脈衝編碼調製。
  • LPC:Linear Predictive Coding,線性預測編碼。
  • CELPC:Code Excited Linear Predictive Coding,碼激勵線性預測編碼。
  • VSELPC:Vector Sum Excited Linear Predictive Coding,矢量和激勵線性預測編碼。
  • RPE-LTP:Regular Pulse Excited-Long Term Predictive,規則脈衝激勵長時預測。
  • LD-CELP:Low Delay-Code Excited Linear Predictive,低時延碼激勵線性預測。
  • MPE:Multi-Pulse Excited,多脈衝激勵。
  • PSTN:Public Switched Telephone Network,公共交換電話網。
  • ISDN:Integrated Services Digital Network,綜合業務數字網。

音頻編解碼技術分爲5大技術,EQTPM,E,熵編碼,Q,量化編碼,T,變換編碼,P,預測編碼,M,音頻建模(感知建模,BCC建模,正弦建模等)

常見音頻處理軟件

相關書籍

語音編解碼書籍

  • 《語音處理技術》,《語音編碼》,《低碼率音頻編碼》,
  • 《數字語音編碼原理》,《變速率語音編碼》《低速率語音編碼》
  • 《數字語音編碼》《數據壓縮》。
  • 《JPEG2000 圖像壓縮基礎》

理論基礎書籍

  • 《信息論與編碼》
  • 《信號與系統》

國外的寬音頻編碼書籍

  • ANDREAS SPANIAS的《Audio Signal Processing and Coding 》。以及他的63頁的論文,《Perceptual Coding of Digital Audio》。
  • MP3之父——K. Brandenburg的:
    • Applications of Digital Signal Processing to Audio and Acoustics》
    • 《A Digital Signal Processing Primer, with Applications to Digital Audio and Computer Music》
    • 《Auditory Perception and the MPEG Audio Standard》
    • 《Foundation and Evolution of Standardized Coders (Wiley,2003)(ISBN 0471373125)(578s)》
  • 漢堡聯邦國防軍大學Udo Zolzer教授的:
    • 《Digital Audio Signal Processing》
    • 《High-Fidelity Multichannel Audio Coding》
    • 《Speech Coding Algorithms》
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章