音視頻基礎_2_數字音頻簡介

數字音頻簡介

模擬信號與數字信號

什麼是信號?學術上的標準定義爲:信號是信息的載體。例如,司機可以通過紅綠燈信號獲取當前是否可以通行的信息;人們說話時會發出聲音信號,聲音信號中就有他想傳遞的信息;醫生可以通過聽診器聽到患者的心跳信號,從中獲取病理信息。

從數學角度來講,信號一般可以模擬爲擁有一個或多個獨立自變量的函數。自變量可以是時間,空間位置,速度等等。

按照自變量和函數值的對應關係對信號進行分類的話,可以將其分爲模擬信號和數字信號。如果自變量和函數值都是連續的,那麼這樣的信號可稱爲模擬信號(Analog Signals),如下圖所示,自變量(時間)和函數值(振幅)都是連續的:
模擬信號示意圖
自然界中幾乎所有的信號都是模擬信號,如聲音,溫度,壓力等等,因爲這些信號都是隨着時間的變化而連續變化的。

如果自變量和函數值都是離散的(不連續的),則這樣的信號稱爲數字信號(Digital Signals),如下圖所示:
數字信號示意圖
舉個簡單的例子,汽車在路上行駛,車速本身就是一個模擬信號,因爲隨着時間變化,車速也是連續變化的。我們可以通過指針儀表盤來模擬車速信號,這種方式也是模擬信號,因爲指針儀表盤也是連續變化的,但是如果我們使用數字儀表盤來表示車速,就變成了數字信號,因爲數字並不連續。如下圖所示。
模擬信號與數字信號舉例
模擬信號和數字信號在生活中都有應用。**人們一般會用電信號(電流,電磁波等)模擬其他模擬信號,這樣產生的電信號同樣是模擬信號。**以前的電話,廣播,電視使用就是模擬信號。聲音和畫面本身都是模擬信號,人們使用電信號對其進行模擬,再使用電流或電磁波的方式發射出去,依然是模擬信號(實際原理比這複雜很多,這裏不詳細介紹了)。

但是模擬信號有一個缺點,就是在傳輸過程中,抗干擾性比較弱,因爲無論是電流還是電磁波,由於其物理特性,都會受到干擾,也會在傳播過程中衰減,很容易失真。此時就體現出數字信號的優勢了,數字信號由於是離散的值,抗干擾性極強,而且便於存儲,傳輸和分析。在計算機中,都是使用數字信號進行存儲和處理的。

要將自然界中的模擬信號轉爲計算機中的數字信號,需要進行模電轉換(A/D轉換),下面我們就以聲音爲例,來介紹這個過程。

要將聲音信號轉爲數字信號,首先要採集原始聲音信號,通過麥克風將聲音信號轉爲模擬電信號,有了模擬電信號之後,纔可以將其轉化爲數字信號,這個過程分爲三步:

  • 採樣
  • 量化
  • 編碼

下面逐一講解。

採樣

所謂採樣,就是通過週期性地以某一規定間隔截取模擬信號,也就是在時間上將模擬信號離散化,從而將模擬信號變換爲數字信號。聽上去很費解,我們通過下面的示意圖來理解:
在這裏插入圖片描述
上圖中,橫軸代表時間,縱軸代表模擬信號值的變化,從中可以看到,每隔固定的時間,截取一次模擬信號的值,這些截取到的值就是採樣樣本,即數字信號。

每秒從模擬信號中提取並組成離散信號的樣本個數被稱爲採樣頻率(採樣率),單位是 Hz。採樣頻率的倒數是採樣週期或者叫作採樣時間,它是樣本之間的時間間隔。通俗地講採樣率是指每秒鐘採集多少個信號樣本

那麼很容易得出結論,採樣率越高,得到的離散值就越多,就越接近模擬信號,但同時數據量就越大。那麼如何既能減少數據量,又能不丟失信息精度呢?奈奎斯特定理給出瞭解決方案。

奈奎斯特定理:在進行模擬/數字信號的轉換過程中,當採樣頻率大於信號中最高頻率的2倍時,採樣之後的數字信號可以完整地保留了原始信號中的信息,奈奎斯特定理又稱採樣定理。

人能聽到的聲音的最大頻率爲 20kHz,對於聲音信號的採樣,業界大多使用的採樣率爲 44100Hz,符合奈奎斯特定理。當然也有使用更高的採樣率的情況,例如47250Hz,48000Hz等,但是使用 44100Hz 的情況比較常見。

PS. 由於人耳對高頻率的聲音並不敏感,對於不同的場景的聲音質量要求不同,所以採樣頻率也不同,數字電話的採樣率只有11025Hz,數字廣播的採樣率爲22050Hz,而對於對音質要求比較高的音樂CD,會採用44100Hz。

量化

由於模擬信號的值是連續的,我們採樣到的這些點理論上來說可能有無限個取值的可能,顯然,對無限個樣值一一給出數字碼來對應是不可能的。爲了實現以數字碼表示樣值,必須採用類似“四捨五入”(實際上並不是四捨五入)的方法把樣值分級“取整”,使一定取值範圍內的樣值由無限多個值變爲有限個值。這一過程稱爲量化

進行量化時,規定的可取值的個數,則由比特深度決定。比特深度(bit depth,也叫位深度)描述了處理音頻數據的硬件或軟件能達到的細節精度。計算機中使用二進制,一位就是一個 bit,比特深度爲 1,則可以表示兩種取值,比特深度爲 2,則可以表示 4 種取值,以此類推。

總的來說,更多的比特意味着數據處理後更精確的輸出結果。每增加一個比特位,所獲得的表示意義的可能性將會翻一倍。如果比特深度爲16,那麼將獲得65536種取值可能性,而24位的比特深度將能夠表示16777216種不同的取值。

對於音頻採樣值的量化,現在常用的比特深度爲 16,對於人耳已經足夠了。

PS. 量化方式並不是線性的,由於人耳對低頻率聲音更敏感,所以在幾百Hz這個範圍的的數值,量化步長可以端一些,對於高頻率聲音(如超過10000Hz)的量化步長可以取的長一些,這種量化方式稱爲非線性量化,也是常用的量化方式。

編碼

經過採樣和量化,模擬信號就被轉化爲了數字信號,記下來就要進行編碼,寫入到數字存儲設備中,典型的存儲設備有 CD,硬盤等等。

由於計算機只支持二進制,需要將數字信號的值轉化爲爲0101的二進制數據才能寫入存儲設備,這個轉化過程就叫編碼。在音頻領域中,採用的編碼技術爲 PCM,即脈衝編碼調製(Pulse Code Modulation)。除了原始的數字信號值,PCM 編碼過程中還會寫入一些其他的控制數據,以便於後期處理。經過 PCM 編碼後的數字信號,可稱爲原始數字音頻數據,有時也被稱爲 PCM 數據。

那麼1秒鐘的聲音信號,轉化爲數字信號之後,是多大的數據量呢?計算方法如下:

數字信號的大小(bit)= 採樣率 * 比特深度 * 聲道數 * 時間(s)

那麼對於採樣率 44.1KHz,比特深度16,立體聲(雙聲道)的聲音,1秒鐘的大小爲:44100 * 16 * 2 = 1411200 bit,1 Byte=8bit,即 176400 Byte,那麼一分鐘的數字信號大小爲:176400 * 60 = 10584000 Byte,約等於 10 MB。由於 PCM 編碼還會寫入控制數據,PCM 數據會比這個值還要再大一些。

那麼一首4分鐘的歌曲,大小在 40 MB 以上。這和我們認知的一首歌曲的大小不太一樣,我們從網絡上下載一首歌,一般也就幾MB。這是爲何呢?

這是因爲,PCM 數據太大了,存在 CD 或硬盤上還好,但是如果進行網絡傳輸的,每分鐘 10 MB,早些年的帶寬承受不了,所以人們發明了壓縮技術,將 PCM 數據進行壓縮,轉化爲數據量更小,更易傳輸,更易存儲的數據。常見的壓縮技術有:WAV,APE,FLAC,WMA,MP3,AAC,OGG 等等。很多時候,人們把這些音頻壓縮技術也叫做音頻編碼技術,這是一種普遍叫法。關於壓縮技術,後面我們會進一步介紹。

數字音頻處理

聲音信號經過編碼,轉化爲 PCM 數據,就可以在計算機中進行存儲和處理了。我們可以對這些數字音頻進行各種處理,包括變聲,混音,消音,剪輯,模擬,傳輸等等等等。數字音頻處理技術在日常生活中非常常見,例如手機K歌中的各種變聲,廣受歡迎的電子音樂,語音聊天等等,後面我們會介紹其中一部分技術。

數字音頻處理是一門及其複雜的技術,即使到了今天,還有很多難題沒有解決。例如,PS 技術可以輕易的將圖片中的某個人替換成另一個人,但是對於聲音,很難在一段音頻中將一個人的聲音換成另一個人的聲音,現在有些技術能夠做到,但是還不完美。數字音頻處理技術一直在發展,很多難題還需要大量的底層技術研究。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章