第3章話音編碼

第3章話音編碼

　　隨着數字電話和數據通信容量日益增長的迫切要求，而又不希望明顯降低傳送話音信號的質量，除了提高通信帶寬之外，對話音信號進行壓縮是提高通信容量的重要措施。另一個可說明話音數據壓縮的重要性的例子是，用戶無法使用28.8 kb/s的調制解調器來接收因特網上的64 kb/s話音數據流，這是一種單聲道、8位/樣本、採樣頻率爲8 kHz的話音數據流。ITU-TSS爲此制定了並且繼續制定一系列話音(speech)數據編譯碼標準。其中，G.711使用μ率和A率壓縮算法，信號帶寬爲3.4 kHz，壓縮後的數據率爲64 kb/s；G.721使用ADPCM壓縮算法，信號帶寬爲3.4 kHz，壓縮後的數據率爲32 kb/s；G.722使用ADPCM壓縮算法，信號帶寬爲7 kHz，壓縮後的數據率爲64 kb/s。在這些標準基礎還制定了許多話音數據壓縮標準，例如G.723，G.723.1，G.728，G.729和G.729.A等。
　　本章將重點介紹話音編碼的基本思想，而詳細計算則留給那些開發和具體設計編譯碼器軟硬件的讀者去研究，並可從本章所列的參考文獻和站點中找到你滿意的文獻資料。

3.1 話音編碼概要

3.1.1 話音波形的特性

　　瞭解話音波形的基本特性對聲音數據的壓縮編碼、聲音的識別和文本-聲音的轉換等都有很重要的意義。
　　當肺部中的受壓空氣沿着聲道通過聲門發出時就產生了話音。普通男人的聲道從聲門到嘴的平均長度約爲17釐米，這個事實反映在聲音信號中就相當於在1 ms數量級內的數據具有相關性，這種相關稱爲短期相關(short-term correlation)。聲道也被認爲是一個濾波器，這個濾波器有許多共振峯，這些共振峯的頻率受隨時間變化的聲道形狀所控制，例如舌的移動就會改變聲道的形狀。許多話音編碼器用一個短期濾波器(short term filter)來模擬聲道。但由於聲道形狀的變化比較慢，模擬濾波器的傳遞函數的修改不需要那麼頻繁，典型值在20 ms左右。
　　壓縮空氣通過聲門激勵聲道濾波器，根據激勵方式不同，發出的話音分成三種類型：濁音(voiced sounds)，清音(unvoiced sounds)和爆破音(plosive sounds)。
　　1.濁音
　　濁音是一種稱爲準週期脈衝(quasi-periodic pulses)激勵所發出的音，這種準週期脈衝是在聲門打開然後關閉時中斷肺部到聲道的氣流所產生的脈衝。聲門打開和關閉的速率呈現爲音節(pitch)的大小，它的速率可通過改變聲道的形狀和空氣的壓力來調整。濁音表現出在音節上有高度的週期性，其值在2～20 ms之間，這個週期性稱爲長期週期性(long-term periodicity)。圖3-01表示了某一濁音段的波形，音節週期大約8 ms。這一濁音段的功率譜密度(power spectral density，PSD)如圖3-02所示。

圖3-01 濁音段的波形舉例

圖3-02 濁音段的功率普密度舉例

　　2. 清音
　　清音是由不穩定氣流激勵所產生的，這種氣流是在聲門處在打開狀態下強制空氣在聲道里高速收縮產生的，如圖3-03所示。這一清音段的功率譜密度PSD和圖3-04所示。

圖3-03 清音段的波形舉例

圖3-04 清音段的功率譜密度舉例

　　3. 爆破音
　　爆破音是在聲道關閉之後產生的壓縮空氣然後突然打開聲道所發出的音。
　　某些音不能歸屬到上述三種音中的任何一種，例如在聲門振動和聲道收縮同時出現的情況下產生的摩擦音，這種音稱爲混合音。
　　雖然各種各樣的話音都有可能產生，但聲道的形狀和激勵方式的變化相對比較慢，因此話音在短時間週期(20 ms的數量級)裏可以被認爲是準定態(quasi-stationary)的，也就是說基本不變的。從圖3-01, -02, -03和-04中可以看到話音信號顯示出的高度週期性，這是由於聲門的準週期性的振動和聲道的諧振所引起的。話音編碼器就是企圖揭示這種週期性，目的是爲了減少數據率而又儘可能不犧牲聲音的質量。

3.1.2 三種話音編譯碼器

　　通常把已有的話音編譯碼器分成以下三種類型：波形編譯碼器(waveform codecs)，音源編譯碼器(source codecs)和混合編譯碼器(hybrid codecs)。一般來說，波形編譯碼器的話音質量高，但數據率也很高；音源編譯碼器的數據率很低，產生的合成話音的音質有待提高；混合編譯碼器使用音源編譯碼技術和波形編譯碼技術，數據率和音質介於它們之間。圖3-05表示了目前這三種編譯碼器的話音質量和數據率的關係。

圖3-05 普通編譯碼器的音質與數據率

　　1. 波形編譯碼器
　　波形編譯碼的想法是，不利用生成話音信號的任何知識而企圖產生一種重構信號，它的波形與原始話音波形儘可能地一致。一般來說，這種編譯碼器的複雜程度比較低，數據速率在16 kb/s以上，質量相當高。低於這個數據速率時，音質急劇下降。
　　最簡單的波形編碼是脈衝編碼調製(pulse code modulation，PCM)，它僅僅是對輸入信號進行採樣和量化。典型的窄帶話音帶寬限制在4 kHz，採樣頻率是8 kHz。如果要獲得高一點的音質，樣本精度要用12位，它的數據率就等於96 kb/s，這個數據率可以使用非線性量化來降低。例如，可以使用近似於對數的對數量化器(logarithmic quantizer)，使用它產生的樣本精度爲8位，它的數據率爲64 kb/s時，重構的話音信號幾乎與原始的話音信號沒有什麼差別。這種量化器在20世紀80年代就已經標準化，而且直到今天還在廣泛使用。在北美的壓擴(companding)標準是μ律(μ-law)，在歐洲的壓擴標準是A律(A-law)。它們的優點是編譯碼器簡單，延遲時間短，音質高。但不足之處是數據速率比較高，對傳輸通道的錯誤比較敏感。
　　在話音編碼中，一種普遍使用的技術叫做預測技術，這種技術是企圖從過去的樣本來預測下一個樣本的值。這樣做的根據是認爲在話音樣本之間存在相關性。如果樣本的預測值與樣本的實際值比較接近，它們之間的差值幅度的變化就比原始話音樣本幅度值的變化小，因此量化這種差值信號時就可以用比較少的位數來表示差值。這就是差分脈衝編碼調製(differential pulse code modulation，DPCM)的基礎—對預測的樣本值與原始的樣本值之差進行編碼。
　　這種編譯碼器對幅度急劇變化的輸入信號會產生比較大的噪聲，改進的方法之一就是使用自適應的預測器和量化器，這就產生了一種叫做自適應差分脈衝編碼調製(adaptive differential PCM，ADPCM)。在20世紀80年代，國際電話與電報顧問委員會 (International Telephone and Telegraph Consultative Committee，CCITT)，現改爲國際電信聯盟-遠程通信標準部(International Telecommunications Union-Telecommunications Standards Section，ITU-TSS )，就制定了數據率爲32 kb/s的ADPCM標準，它的音質非常接近64 kb/s的PCM編譯碼器，隨後又制定了數據率爲16，24和40 kb/s的ADPCM標準。
　　上述的所有波形編譯碼器完全是在時間域裏開發的，在時域裏的編譯碼方法稱爲時域法(time domain approach)。在開發波形編譯碼器中，人們還使用了另一種方法，叫做頻域法(frequency domain approach)。例如，在子帶編碼(sub-band coding，SBC)中，輸入的話音信號被分成好幾個頻帶(即子帶)，變換到每個子帶中的話音信號都進行獨立編碼，例如使用ADPCM編碼器編碼，在接收端，每個子帶中的信號單獨解碼之後重新組合，然後產生重構話音信號。它的優點是每個子帶中的噪聲信號僅僅與該子帶使用的編碼方法有關係。對聽覺感知比較重要的子帶信號，編碼器可分配比較多的位數來表示它們，於是在這些頻率範圍裏噪聲就比較低。對於其他的子帶，由於對聽覺感知的重要性比較低，允許比較高的噪聲，於是編碼器就可以分配比較少的位數來表示這些信號。自適應位分配的方案也可以考慮用來進一步提高音質。子帶編碼需要用濾波器把信號分成若干個子帶，這比使用簡單的ADPCM編譯碼器複雜，而且還增加了更多的編碼時延。即使如此，與大多數混合編譯碼器相比，子帶編譯碼的複雜性和時延相對來說還是比較低的。
　　另一種頻域波形編碼技術叫做自適應變換編碼(adaptive transform coding，ATC)。這種方法使用快速變換(例如離散餘弦變換)把話音信號分成許許多多的頻帶，用來表示每個變換系數的位數取決於話音譜的性質，獲得的數據率可低到16 kb/s。
　　2. 音源編譯碼器
　　音源編譯碼的想法是企圖從話音波形信號中提取生成話音的參數，使用這些參數通過話音生成模型重構出話音。針對話音的音源編譯碼器叫做聲碼器(vocoder)。在話音生成模型中，聲道被等效成一個隨時間變化的濾波器，叫做時變濾波器(time-varying filter)，它由白噪聲—無聲話音段激勵，或者由脈衝串——有聲話音段激勵。因此需要傳送給解碼器的信息就是濾波器的規格、發聲或者不發聲的標誌和有聲話音的音節週期，並且每隔10～20 ms更新一次。聲碼器的模型參數既可使用時域的方法也可以使用頻域的方法確定，這項任務由編碼器完成。
　　這種聲碼器的數據率在2.4 kb/s左右，產生的語音雖然可以聽懂，但其質量遠遠低於自然話音。增加數據率對提高合成話音的質量無濟於事，這是因爲受到話音生成模型的限制。儘管它的音質比較低，但它的保密性能好，因此這種編譯碼器一直用在軍事上。
　　3. 混合編譯碼
　　混合編譯碼的想法是企圖填補波形編譯碼和音源編譯碼之間的間隔。波形編譯碼器雖然可提供高話音的質量，但數據率低於16 kb/s的情況下，在技術上還沒有解決音質的問題；聲碼器的數據率雖然可降到2.4 kb/s甚至更低，但它的音質根本不能與自然話音相提並論。爲了得到音質高而數據率又低的編譯碼器，歷史上出現過很多形式的混合編譯碼器，但最成功並且普遍使用的編譯碼器是時域合成-分析(analysis-by-synthesis，AbS)編譯碼器。這種編譯碼器使用的聲道線性預測濾波器模型與線性預測編碼(linear predictive coding，LPC)使用的模型相同，不使用兩個狀態(有聲/無聲)的模型來尋找濾波器的輸入激勵信號，而是企圖尋找這樣一種激勵信號，使用這種信號激勵產生的波形儘可能接近於原始話音的波形。AbS編譯碼器由Atal和Remde在1982年首次提出，並命名爲多脈衝激勵(multi-pulse excited，MPE)編譯碼器，在此基礎上隨後出現的是等間隔脈衝激勵(regular-pulse excited，RPE)編譯碼器、碼激勵線性預測CELP(code excited linear predictive)編譯碼器和混合激勵線性預測(mixed excitation linear prediction，MELP)等編譯碼器。
　　AbS編譯碼器的一般結構如圖3-06所示。

(a) 編碼器

(b) 譯碼器
圖3-06 AbS編譯碼器的結構

　　AbS編譯碼器把輸入話音信號分成許多幀(frames)，一般來說，每幀的長度爲20 ms。合成濾波器的參數按幀計算，然後確定濾波器的激勵參數。從圖3-06(a)可以看到，AbS編碼器是一個負反饋系統，通過調節激勵信號u(n)可使話音輸入信號s(n)與重構的話音信號之差爲最小，也就是重構的話音與實際的話音最接近。這就是說，編碼器通過“合成”許多不同的近似值來“分析”輸入話音信號，這也是“合成-分析編碼器”名稱的來由。在表示每幀的合成濾波器的參數和激勵信號確定之後，編碼器就把它們存儲起來或者傳送到譯碼器。在譯碼器端，激勵信號饋送給合成濾波器，合成濾波器產生重構的話音信號，如圖3-06(b)所示。
　　合成濾波器通常使用全極點(all pole)的短期(short-term)線性濾波器，它的函數如：
　　
其中
　　
　　是預測誤差濾波器，這個濾波器是按照這樣的原則確定的：當原始話音段通過該濾波器時產生的殘留信號的能量最小。濾波器的極點數的典型值等於10。這個濾波器企圖去模擬由於聲道作用而引入的話音相關性。
　　合成濾波器也可以包含音節(pitch)濾波器，用來模擬話音中出現的長期預測。MPE和RPE編譯碼器一般不使用音節濾波器，對於CELP編譯碼器，音節濾波器則顯得非常重要。
　　圖3-06中的“誤差加權”方框用來塑造誤差信號譜的形狀，目的是減少誤差信號的主觀響度。這樣做的想法是，在話音信號能量很高的頻段中，誤差信號至少有部分能夠被高能量的話音掩蔽掉。
　　AbS編譯碼器的性能與如何選擇激勵合成濾波器的波形u(n)有很大關係。從概念上說，可把每一種可能的波形輸送給合成濾波器試試看，這種激勵信號將會產生什麼樣的重構話音信號，它和原始話音信號之間的誤差如何變化，然後選擇產生最小加權誤差的激勵信號，並把它作爲譯碼器中的合成濾波器的驅動信號。由於編碼器是一個閉環系統，因此可以獲得比較高的音質而數據率又比較低。但由於可能的激勵信號的數目巨大，因此需要有某種方法來減少計算的複雜性而音質又不會犧牲太大。
　　MPE，RPE和CELP編譯碼器之間的差別在於所使用的激勵信號的表示方法。在MPE中，對每幀話音所用的激勵信號u(n)是固定數目的脈衝，在一幀中脈衝的位置和幅度必須由編碼器來確定，這在理論上可以找到很好的值，但實際上不太可能，因爲計算太複雜。因此在實際上就使用次佳方法，一般來說，每5 ms使用4個脈衝，在數據率爲10 kb/s時可以獲得好的重構話音。
　　像MPE那樣，RPE編譯碼器使用固定間隔的脈衝，於是編碼器就只需要確定第一個激勵脈衝的位置和所有其他脈衝的幅度，所需要的脈衝位置信息也就可以減少，而脈衝的數目則比MPE使用的數目多。數據率在10 kb/s左右時，每5 ms可使用10個脈衝，比MPE多6個，產生比MPE音質高一些的重構話音。然而RPE仍然顯得比較複雜，因此歐洲的GSM移動電話系統使用了一個帶長期預測的簡化了的RPE編譯碼器，數據率爲13 kb/s。
　　雖然MPE和RPE編譯碼器在10 kb/s左右的數據率下可提供好的音質，但數據率低於10 kb/s情況下提供的音質還不能接受，這是因爲它們需要提供大量有關激勵脈衝的位置和幅度信息。對要求音質好而數據率又低於10 kb/s的編譯碼器，現在普遍使用的算法是1985年由Schroeder和Atal提出的CELP算法。與MPE和RPE的不同之處是，CELP使用的激勵信號是量化矢量。激勵信號由一個矢量量化大碼簿的表項給出，還有一個增益項用來擴展它的功率。典型的碼簿索引有10位，就是有1024個表項的碼簿，增益用5位表示。因此激勵信號的位數可以減少到15位，這與GSM RPE編譯碼器中使用的47位相比減少了32位。
　　CELP最初使用的碼簿包含白高斯序列(white Gaussian sequences)，這是因爲作了這樣的假設：長期預測和短期預測能夠從話音信號中去除幾乎所有的冗餘度，產生隨機的像噪聲那樣的殘留信號。試驗也顯示出短期概率密度函數幾乎是高斯狀的。Schroeder和Atal發現，對長期和短期濾波器使用這樣的碼簿能夠產生高質量的話音。然而，在合成-分析過程中要選擇使用哪一個碼簿表項，這就意味每一個激勵序列都要傳送給合成濾波器，看看重構話音與原始話音的近似程度。這也就是說原始CELP編譯碼器的計算量太大，難以實時執行。從1985年開始，在簡化CELP的碼簿結構方面做了大量的工作，使用數字信號處理(DSP)芯片提高執行速度方面也取得了很大的進展，因此現在在低成本的單片DSP上實時執行CELP算法相對容易了，在CELP基礎上制定了好幾個重要的話音編碼標準，例如美國的“Department of Defence(DoD) 4.8 kb/s codec”標準和CCITT的“low-delay 16 kb/s codec”標準。
　　CELP編譯碼器在話音通信中取得了很大成功，話音的速率在4.8 kb/s～16 kb/s之間。近年來對運行在4.8 kb/s以下的編譯碼器作了大量的研究工作，其目標是開發運行在2.4 kb/s或者更低數據率下的編譯碼器。
　　通過對話音段進行分類，例如分成濁音幀、清音幀和過渡幀，CELP編譯碼器的結構可以進一步得到改善，不同類型的話音段使用專門設計的編碼器進行編碼。例如，對於濁音幀編碼器不使用長期預測，而對於清音幀使用長期預測就顯得特別重要。這種按話音類型設計的編譯碼器在數據率爲2.4 kb/s下呈現的音質已經得到認可。多帶激勵MBE(multi-band excitation)編譯碼器把頻域中的某些頻段看成是濁音頻段，其他頻段看成是清音頻段。它們傳送每幀的音節週期、頻譜的幅度和相位信息以及濁音/清音的判決。這種編譯碼器經過改造以後也顯示出了它的潛力，在低數據率下可提供認可的音質。
　　在數據率爲2.4 kb/s～64 kb/s的範圍裏，部分編碼器的MOS分數大致如表3-01所示。

表3-01 部分編碼器的MOS分

編碼器	MOS分
64 kb/s脈衝編碼調製(PCM)	4.3
32 kb/s自適應差分脈衝編碼調製(ADPCM)	4.1
16 kb/s低時延碼激勵線性預測編碼(LD-CELP)	4.0
8 kb/s碼激勵線性預測編碼(CELP)	3.7
3.8 kb/s碼激勵線性預測編碼(CELP)	3.0
2.4 kb/s線性預測編碼(LPC)	2.5

3.2 脈衝編碼調製(PCM)

3.2.1 PCM的概念

　　脈衝編碼調製(pulse code modulation，PCM)是概念上最簡單、理論上最完善的編碼系統，是最早研製成功、使用最爲廣泛的編碼系統，但也是數據量最大的編碼系統。
　　PCM的編碼原理比較直觀和簡單，它的原理框圖如圖3–07所示。在這個編碼框圖中，它的輸入是模擬聲音信號，它的輸出是PCM樣本。圖中的“防失真濾波器”是一個低通濾波器，用來濾除聲音頻帶以外的信號；“波形編碼器”可暫時理解爲“採樣器”，“量化器”可理解爲“量化階大小(step-size)”生成器或者稱爲“量化間隔”生成器。

圖3-07 PCM編碼框圖

　　在第2章介紹聲音數字化的時候，談到聲音數字化有兩個步驟：第一步是採樣，就是每隔一段時間間隔讀一次聲音的幅度；第二步是量化，就是把採樣得到的聲音信號幅度轉換成數字值。但那時並沒有涉及如何進行量化。量化有好幾種方法，但可歸納成兩類：一類稱爲均勻量化，另一類稱爲非均勻量化。採用的量化方法不同，量化後的數據量也就不同。因此，可以說量化也是一種壓縮數據的方法。

3.2.2 均勻量化

　　如果採用相等的量化間隔對採樣得到的信號作量化，那麼這種量化稱爲均勻量化。均勻量化就是採用相同的“等分尺”來度量採樣得到的幅度，也稱爲線性量化，如圖3-08所示。量化後的樣本值Y和原始值X的差E=Y-X稱爲量化誤差或量化噪聲。

圖3-08 均勻量化

　　用這種方法量化輸入信號時，無論對大的輸入信號還是小的輸入信號一律都採用相同的量化間隔。爲了適應幅度大的輸入信號，同時又要滿足精度要求，就需要增加樣本的位數。但是，對話音信號來說，大信號出現的機會並不多，增加的樣本位數就沒有充分利用。爲了克服這個不足，就出現了非均勻量化的方法，這種方法也叫做非線性量化。

3.2.3 非均勻量化

　　非線性量化的基本想法是，對輸入信號進行量化時，大的輸入信號採用大的量化間隔，小的輸入信號採用小的量化間隔，如圖3-09所示。這樣就可以在滿足精度要求的情況下用較少的位數來表示。聲音數據還原時，採用相同的規則。
　　在非線性量化中，採樣輸入信號幅度和量化輸出數據之間定義了兩種對應關係，一種稱爲 m 律壓擴(companding)算法，另一種稱爲A律壓擴算法。

圖3-09 非均勻量化

3.2.4 m 律壓擴

　　m 律(m -Law)壓擴(G.711)主要用在北美和日本等地區的數字電話通信中，按下面的式子確定量化輸入和輸出的關係：
　　
式中：x爲輸入信號幅度，規格化成-1≤x≤1 ;
　　sgn(x)爲x的極性；
　　m 爲確定壓縮量的參數，它反映最大量化間隔和最小量化間隔之比，取100 £ m £ 500。
　　由於m 律壓擴的輸入和輸出關係是對數關係，所以這種編碼又稱爲對數PCM。具體計算時，用m＝255，把對數曲線變成8條折線以簡化計算過程。詳細計算請看參考文獻[17]。

3.2.5 A律壓擴

　　A律(A-Law)壓擴(G.711)主要用在歐洲和中國大陸等地區的數字電話通信中，按下面的式子確定量化輸入和輸出的關係：
　　　　　　0 £ |x| £ 1/A
　　　　1/A < |x| £ 1
　　式中：x爲輸入信號幅度，規格化成 -1 £ x £ 1;
　　sgn(x)爲x的極性；
　　A爲確定壓縮量的參數，它反映最大量化間隔和最小量化間隔之比。
　　A律壓擴的前一部分是線性的，其餘部分與m 律壓擴相同。具體計算時，A＝87.56，爲簡化計算，同樣把對數曲線部分變成折線。詳細計算請看參考文獻[17]。
　　對於採樣頻率爲8 kHz，樣本精度爲13位、14位或者16位的輸入信號，使用m 律壓擴編碼或者使用A律壓擴編碼，經過PCM編碼器之後每個樣本的精度爲8位，輸出的數據率爲64 kb/s。這個數據就是CCITT推薦的G.711標準：話音頻率脈衝編碼調製(Pulse Code Modulation (PCM) of Voice Frequences)。

3.3 PCM在通信中的應用

　　PCM編碼早期主要用於話音通信中的多路複用。一般來說，在電信網中傳輸媒體費用約佔總成本的65%，設備費用約佔成本的35%，因此提高線路利用率是一個重要課題。提高線路利用率通常用下面兩種方法：
　　1. 頻分多路複用 (frequency-division multiplexing，FDM)
　　這種方法是把傳輸信道的頻帶分成好幾個窄帶，每個窄帶傳送一路信號。例如，一個信道的頻帶爲1400 Hz，把這個信道分成4個子信道(subchannels)：820～990 Hz, 1230～1400 Hz, 1640～1810 Hz和2050～2220 Hz，相鄰子信道間相距240 Hz，用於確保子信道之間不相互干擾。每對用戶僅佔用其中的一個子信道。這是模擬載波通信的主要手段。
　　2. 時分多路複用(time-division multiplexing，TDM)
　　這種方法是把傳輸信道按時間來分割，爲每個用戶指定一個時間間隔，每個間隔裏傳輸信號的一部分，這樣就可以使許多用戶同時使用一條傳輸線路。這是數字通信的主要手段。例如，話音信號的採樣頻率f＝8000 Hz，它的採樣週期＝125 m s，這個時間稱爲1幀(frame)。在這個時間裏可容納的話路數有兩種規格：24路制和30路制。圖3-10表示了24路制的結構。

圖3-10 24路PCM的幀結構

　　24路制的重要參數如下：

　　　●每秒鐘傳送8000幀，每幀125 m s。
　　　●12幀組成1復幀(用於同步)。
　　　●每幀由24個時間片(信道)和1位同步位組成。
　　　●每個信道每次傳送8位代碼，1幀有24 × 8 ＋1＝193位(位)。
　　　●數據傳輸率R＝8000×193＝1544 kb/s。
　　　●每一個話路的數據傳輸率＝8000×8=64 kb/s。
　　30路制的重要參數如下：
　　　●每秒鐘傳送8000幀，每幀125 ms。
　　　●16幀組成1復幀(用於同步)。
　　　●每幀由32個時間片(信道)組成。
　　　●每個信道每次傳送8位代碼。
　　　●數據傳輸率：R＝8000×32×8＝2048 kb/s。
　　　●每一個話路的數據傳輸率＝8000×8=64 kb/s。
　　時分多路複用(TDM)技術已廣泛用在數字電話網中，爲反映PCM信號複用的複雜程度，通常用“羣(group)”這個術語來表示，也稱爲數字網絡的等級。PCM通信方式發展很快，傳輸容量已由一次羣(基羣)的30路(或24路)，增加到二次羣的120路(或96路)，三次羣的480路(或384路)，……。圖3-11表示二次複用的示意圖。圖中的N表示話路數，無論N＝30還是N＝24，每個信道的數據率都是64 kb/s，經過一次複用後的數據率就變成2048 kb/s(N＝30)或者1544 kb/s(N＝24)。在數字通信中，具有這種數據率的線路在北美叫做T1遠距離數字通信線，提供這種數據率服務的級別稱爲T1等級，在歐洲叫做E1遠距離數字通信線和E1等級。T1/E1，T2/E2，T3/E3，T4/E4和T5/E5的數據率如表3-02所示。請注意，上述基本概念都是在多媒體通信中經常用到的。

圖3-11 二次複用示意圖

表3-02 多次複用的數據傳輸率

	數字網絡等級	T1/E1	T2/E2	T3/E3	T4/E4	T5/E5
美國	64 kb/s話路數	24	96	672	4.32
	總傳輸率(Mb/s)	1.544	6.512	44.736	274.176
	數字網絡等級	1	2	3	4	5
歐洲	64 kb/s話路數	30	120	480	1920	7680
	總傳輸率(Mb/s)	2.048	8.448	34.368	139.264	5600
日本	64 kb/s話路數	24	96	480	1440
	總傳輸率(Mb/s)	1.544	6.312	32.064	97.728

3.4 增量調製與自適應增量調製

　　由於DM編碼的簡單性，它已成爲數字通信和壓縮存儲的一種重要方法，很多人對最早在1946年發明的DM系統做了大量的改進和提高工作。後來的自適應增量調製ADM系統採用十分簡單的算法就能實現32 kb/s～48 kb/s的數據率，而且可提供高質量的重構話音，它的MOS評分可達到4.3分左右。

3.4.1 增量調製(DM)

　　增量調製也稱△調製(delta modulation，DM)，它是一種預測編碼技術，是PCM編碼的一種變形。PCM是對每個採樣信號的整個幅度進行量化編碼，因此它具有對任意波形進行編碼的能力；DM是對實際的採樣信號與預測的採樣信號之差的極性進行編碼，將極性變成“0”和“1”這兩種可能的取值之一。如果實際的採樣信號與預測的採樣信號之差的極性爲“正”，則用“1”表示；相反則用“0”表示，或者相反。由於DM編碼只須用1位對話音信號進行編碼，所以DM編碼系統又稱爲“1位系統”。
　　DM波形編碼的原理如圖3-12所示。縱座標表示“模擬信號輸入幅度”，橫座標表示“編碼輸出”。用i表示採樣點的位置，x[i]表示在i點的編碼輸出。輸入信號的實際值用y_i表示，輸入信號的預測值用y[i+1]=y[i]±Δ表示。假設採用均勻量化，量化階的大小爲Δ，在開始位置的輸入信號y₀=0，預測值y[0]=0，編碼輸出x[0]=1。
　　現在讓我們看幾個採樣點的輸出。在採樣點i=1處，預測值y[1]=Δ，由於實際輸入信號大於預測值，因此x[1]=1；… ；在採樣點i=4處，預測值x[4] =4Δ，同樣由於實際輸入信號大於預測值，因此x[4]=1；其他情況依此類推。
　　從圖3-12中可以看到，在開始階段增量調製器的輸出不能保持跟蹤輸入信號的快速變化，這種現象就稱爲增量調製器的“斜率過載”(slope overload)。一般來說，當輸入信號的變化速度超過反饋迴路輸出信號的最大變化速度時，就會出現斜率過載。之所以會出現這種現象，主要是反饋迴路輸出信號的最大變化速率受到量化階大小的限制，因爲量化階的大小是固定的。
　　從圖3-12中還可以看到，在輸入信號緩慢變化部分，即輸入信號與預測信號的差值接近零的區域，增量調製器的輸出出現隨機交變的“0”和“1”。這種現象稱爲增量調製器的粒狀噪聲(granular noise)，這種噪聲是不可能消除的。

圖3-12 DM波形編碼示意圖

　　在輸入信號變化快的區域，斜率過載是關心的焦點，而在輸入信號變化慢的區域，關心的焦點是粒狀噪聲。爲了儘可能避免出現斜率過載，就要加大量化階Δ，但這樣做又會加大粒狀噪聲；相反，如果要減小粒狀噪聲，就要減小量化階Δ，這又會使斜率過載更加嚴重。這就促進了對自適應增量調製(adaptive delta modulation，ADM)的研究。

3.4.2 自適應增量調製(ADM)

　　爲了使增量調製器的量化階Δ能自適應，也就是根據輸入信號斜率的變化自動調整量化階Δ的大小，以使斜率過載和粒狀噪聲都減到最小，許多研究人員研究了各種各樣的方法，而且幾乎所有的方法基本上都是在檢測到斜率過載時開始增大量化階Δ，而在輸入信號的斜率減小時降低量化階Δ。
　　例如，宋(Song)在1971描述的自適應增量調製技術中提出：假定增量調製器的輸出爲1和0，每當輸出不變時量化階增大50%，使預測器的輸出跟上輸入信號；每當輸出值改變時，量化階減小50%，使粒狀噪聲減到最小，這種自適應方法使斜率過載和粒狀噪聲同時減到最小。
　　又如，使用較多的另一種自適應增量調製器是由格林弗基斯(Greefkes)1970提出的，稱爲連續可變斜率增量調製(continuously variable slope delta modulation，CVSD)。它的基本方法是：如果連續可變斜率增量調製器(continuously variable slope delta modulator，CVSD)的輸出連續出現三個相同的值，量化階就加上一個大的增量，反之，就加一個小的增量。
　　爲了適應數字通信快速增長的需要，Motorola公司於80年代初期就已經開發了實現CVSD算法的集成電路芯片。如MC3417/MC3517和MC3418/MC3518，前者採用3位算法，後者採用4位算法。MC3417/MC3517用於一般的數字通信，MC3418/MC3518用於數字電話。MC3417/MC3418用於民用，MC3517/MC3518用於軍用。

3.5 自適應差分脈衝編碼調製

　　G.711使用A律或μ律PCM方法對採樣率爲8 kHz的聲音數據進行壓縮，壓縮後的數據率爲64 kb/s。爲了提高充分利用線路資源，而又不希望明顯降低傳送話音信號的質量，就要對它作進一步壓縮，方法之一就是採用ADPCM。

3.5.1 自適應脈衝編碼調製(APCM)的概念

　　自適應脈衝編碼調製(adaptive pulse code modulation，APCM)是根據輸入信號幅度大小來改變量化階大小的一種波形編碼技術。這種自適應可以是瞬時自適應，即量化階的大小每隔幾個樣本就改變，也可以是音節自適應，即量化階的大小在較長時間週期裏發生變化。
　　改變量化階大小的方法有兩種：一種稱爲前向自適應(forward adaptation)，另一種稱爲後向自適應(backward adaptation)。前者是根據未量化的樣本值的均方根值來估算輸入信號的電平，以此來確定量化階的大小，並對其電平進行編碼作爲邊信息(side information)傳送到接收端。後者是從量化器剛輸出的過去樣本中來提取量化階信息。由於後向自適應能在發收兩端自動生成量化階，所以它不需要傳送邊信息。前向自適應和後向自適應APCM的基本概念，如圖3-13所示。圖中的s(k)是發送端編碼器的輸入信號，s_r(k)是接收端譯碼器輸出的信號。

(a) 前向自適應

(b) 後向自適應
圖3-13 APCM方塊圖

3.5.2 差分脈衝編碼調製(DPCM)的概念

　　差分脈衝編碼調製DPCM(differential pulse code modulation)是利用樣本與樣本之間存在的信息冗餘度來進行編碼的一種數據壓縮技術。差分脈衝編碼調製的思想是，根據過去的樣本去估算(estimate)下一個樣本信號的幅度大小，這個值稱爲預測值，然後對實際信號值與預測值之差進行量化編碼，從而就減少了表示每個樣本信號的位數。它與脈衝編碼調製(PCM)不同的是，PCM是直接對採樣信號進行量化編碼，而DPCM是對實際信號值與預測值之差進行量化編碼，存儲或者傳送的是差值而不是幅度絕對值，這就降低了傳送或存儲的數據量。此外，它還能適應大範圍變化的輸入信號。
　　差分脈衝編碼調製的概念示於圖3-14。圖中，差分信號d(k)是離散輸入信號s(k)和預測器輸出的估算值s_e(k-1)之差。注意，s_e(k-1)是對s(k)的預測值，而不是過去樣本的實際值。DPCM系統實際上就是對這個差值d(k)進行量化編碼，用來補償過去編碼中產生的量化誤差。DPCM系統是一個負反饋系統，採用這種結構可以避免量化誤差的積累。重構信號s_r(k)是由逆量化器產生的量化差分信號d_q(k)，與對過去樣本信號的估算值s_e(k-1)求和得到。它們的和，即s_r(k)作爲預測器確定下一個信號估算值的輸入信號。由於在發送端和接收s_e(k-1)端都使用相同的逆量化器和預測器，所以接收端的重構信號s_r(k)可從傳送信號I(k)獲得。

圖3-14 DPCM方塊圖

3.5.3 自適應差分脈衝編碼調製(ADPCM)

　　ADPCM(adaptive difference pulse code modulation)綜合了APCM的自適應特性和DPCM系統的差分特性，是一種性能比較好的波形編碼。它的核心想法是：①利用自適應的思想改變量化階的大小，即使用小的量化階(step-size)去編碼小的差值，使用大的量化階去編碼大的差值,②使用過去的樣本值估算下一個輸入樣本的預測值，使實際樣本值和預測值之間的差值總是最小。它的編碼簡化框圖如圖3-15所示。
　　接收端的譯碼器使用與發送端相同的算法，利用傳送來的信號來確定量化器和逆量化器中的量化階大小，並且用它來預測下一個接收信號的預測值。

圖3-15 ADPCM方塊圖

3.5.4 G.721 ADPCM編譯碼器

　　ADPCM是利用樣本與樣本之間的高度相關性和量化階自適應來壓縮數據的一種波形編碼技術，CCITT爲此制定了G.721推薦標準，這個標準叫做32 kb/s自適應差分脈衝編碼調製——32 kb/s Adaptive Differential Pulse Code Modulation[7]。在此基礎上還制定了G.721的擴充推薦標準，即G.723 —— Extension of Recommendation G.721 Adaptive Differential Pulse Code Modulation to 24 and 40 kb/s for Digital Circuit Multiplication Equipment Application，使用該標準的編碼器的數據率可降低到40 kb/s和24 kb/s。
　　CCITT推薦的G.721 ADPCM標準是一個代碼轉換系統。它使用ADPCM轉換技術，實現64 kb/s A律或μ律PCM速率和32 kb/s速率之間的相互轉換。G.721 ADPCM的簡化框圖如圖3-16所示。

(a) ADPCM編碼器

(b) ADPCM譯碼器
圖3-16 G.721 ADPCM簡化框圖

在圖3-16(a)所示的編碼器中，A律或μ律PCM輸入信號轉換成均勻的PCM。差分信號等於均勻的PCM輸入信號與預測信號之差。“自適應量化器”用4位二進制數表示差分信號，但只用其中的15個數(即15個量級)來表示差分信號，這是爲防止出現全“0”信號。“逆自適應量化器”從這4位相同的代碼中產生量化差分信號。預測信號和這個量化差分信號相加產生重構信號。“自適應預測器”根據重構信號和量化差分信號產生輸入信號的預測信號，這樣就構成了一個負反饋迴路。
　　G.721 ADPCM編譯碼器的輸入信號是G.711 PCM代碼，採樣率是8 kHz，每個代碼用8位表示，因此它的數據率爲64 kb/s。而G.721 ADPCM的輸出代碼是“自適應量化器”的輸出，該輸出是用4位表示的差分信號，它的採樣率仍然是8 kHz，它的數據率爲32 kb/s，這樣就獲得了2∶1的數據壓縮。
　　在圖3-16(b)所示的譯碼器中，譯碼器的部分結構與編碼器負反饋迴路部分相同。此外，還包含有均勻PCM到A律或μ律PCM的轉換部分，以及同步編碼調整(synchronous coding adjustment)部分。設置同步(串行)編碼調整的目的是爲防止在同步串行編碼期間出現的累積信號失真。

3.6 G.722 SB-ADPCM編譯碼器

　　爲了適應可視電話會議日益增長的迫切需要，1988年CCITT爲此制定了G.722推薦標準，叫做“數據率爲64 kb/s的7 kHz聲音信號編碼——7 kHz Audio-coding with 64 kb/s”[8][9]。這個標準把話音信號的質量由電話質量提高到AM無線電廣播質量，而其數據傳輸率仍保持爲64 kb/s。
　　寬帶話音是指帶寬在50～7000 Hz的話音，這種話音在可懂度和自然度方面都比帶寬爲300～3400的話音有明顯的提高，也更容易識別對方的說話人。

3.6.1 子帶編碼(SBC)

　　子帶編碼(subband coding，SBC)的基本思想是：使用一組帶通濾波器(band-pass filter，BPF)把輸入音頻信號的頻帶分成若干個連續的頻段，每個頻段稱爲子帶。對每個子帶中的音頻信號採用單獨的編碼方案去編碼。在信道上傳送時，將每個子帶的代碼複合起來。在接收端譯碼時，將每個子帶的代碼單獨譯碼，然後把它們組合起來，還原成原來的音頻信號。子帶編碼的方塊圖如圖3-17所示，圖中的編碼/譯碼器，可以採用ADPCM，APCM，PCM等。

圖3-17 子帶編碼方塊圖

　　採用對每個子帶分別編碼的好處有二個。第一，對每個子帶信號分別進行自適應控制，量化階(quantization step)的大小可以按照每個子帶的能量電平加以調節。具有較高能量電平的子帶用大的量化階去量化，以減少總的量化噪聲。第二，可根據每個子帶信號在感覺上的重要性，對每個子帶分配不同的位數，用來表示每個樣本值。例如，在低頻子帶中，爲了保護音調和共振峯的結構，就要求用較小的量化階、較多的量化級數，即分配較多的位數來表示樣本值。而話音中的摩擦音和類似噪聲的聲音，通常出現在高頻子帶中，對它分配較少的位數。
　　音頻頻帶的分割可以用樹型結構的式樣進行劃分。首先把整個音頻信號帶寬分成兩個相等帶寬的子帶：高頻子帶和低頻子帶。然後對這兩個子帶用同樣的方法劃分，形成4個子帶。這個過程可按需要重複下去，以產生2^K個子帶，K爲分割的次數。用這種辦法可以產生等帶寬的子帶，也可以生成不等帶寬的子帶。例如，對帶寬爲4000 Hz的音頻信號，當K=3時，可分爲8個相等帶寬的子帶，每個子帶的帶寬爲500 Hz。也可生成5個不等帶寬的子帶，分別爲［0,500),［500,1000)，[1000,2000),［2000,3000)和［3000，4000］。
　　把音頻信號分割成相鄰的子帶分量之後，用2倍於子帶帶寬的採樣頻率對子帶信號進行採樣，就可以用它的樣本值重構出原來的子帶信號。例如，把4000 Hz帶寬分成4個等帶寬子帶時，子帶帶寬爲1000 Hz，採樣頻率可用2000 Hz，它的總採樣率仍然X是8000 Hz。
　　由於分割頻帶所用的濾波器不是理想的濾波器，經過分帶、編碼、譯碼後合成的輸出音頻信號會有混迭效應。據有關資料的分析，採用正交鏡象濾波器(quandrature mirror filter，QMF)來劃分頻帶，混迭效應在最後合成時可以抵消。
　　圖3-18表示用QMF分割頻帶的子帶編譯碼簡化框圖。圖中表示用QMF把全帶音頻信號分割成兩個等帶寬子帶的情況。h_H(n)和h_L(n)分別表示高通濾波器和低通濾波器，它們組成一對正交鏡象濾波器。這兩個濾波器也叫做分析濾波器。圖3-18(b)是QMF簡化的幅頻特性。

(a) QMF分割頻道方框圖

(b) QMF幅頻特性簡化圖

圖3-18 採用QMF的子帶編譯碼簡化框圖

　　子帶編碼器SBC愈來愈受到重視。在中等速率的編碼系統中，SBC的動態範圍寬、音質高、成本低。使用子帶編碼技術的編譯碼器已開始用於話音存儲轉發(voice store-and-forward)和話音郵件，採用2個子帶和ADPCM的編碼系統也已由CCITT作爲G.722標準向全世界推薦使用。

3.6.2 子帶-自適應差分脈衝編碼調製(SB-ADPCM)

　　採樣率爲8 kHz、8位/樣本、數據率爲64 kb/s的G.711標準是CCITT爲話音信號頻率爲300～3400 Hz制定的編譯碼標準，這屬於窄帶音頻信號編碼。現代的話音編碼技術已經可以減少數據率，而又不致於顯著降低音質。CCITT推薦的8 kHz採樣率、4位/樣本、32 kb/s的G.721標準，以及G.721的擴充標準G.723，都說明了話音壓縮編碼技術的進展。
　　G.722是CCITT推薦的音頻信號(audio)編碼譯碼標準。該標準是描述音頻信號帶寬爲7 kHz、數據率爲64 kb/s的編譯碼原理、算法和計算細節。G.722的主要目標是保持64 kb/s的數據率，而音頻信號的質量要明顯高於G.711的質量。G.722標準把音頻信號採樣頻率由8 kHz提高到16 kHz，是G.711 PCM採樣率的2倍，因而要被編碼的信號頻率由原來的3.4 kHz擴展到7 kHz。這就使音頻信號的質量有很大改善，由數字電話的話音質量提高到調幅(AM)無線電廣播的質量。對話音信號質量來說，提高採樣率並無多大改善，但對音樂一類信號來說，其質量卻有很大提高。圖3-19對窄帶話音和寬帶音頻信道作了比較。G.722編碼標準在音頻信號的低頻端把截止頻率擴展到50 Hz，其目的是爲進一步改善音頻信號的自然度。

圖3-19 窄帶和寬帶音頻信道頻率特性

　　在端對端(end-to-end)的數字連接應用中，加到電話網上的迴音(echo)音源並不十分強。然而，當把現存窄帶通信鏈路和寬帶會議系統相互連接時，這種連接就可能引入比較強的迴音源。如果寬帶信號端對端的延遲不加限制，迴音控制就可能變得很困難。爲了簡化迴音控制，G.722編譯碼器引入的延遲時間限制在4 ms以內。
　　在某些應用場合中，也許希望從64 kb/s信道中讓出一部分信道用來傳送其它的數據。因此，G.722定了三種音頻信號傳送方式，如表3-03所示。北美洲的信息限制音頻信號速率爲56 kb/s，因此有8 kb/s的數據率用來傳送附加數據。

表3-03運行方式

方式	7 kHz音頻信號編碼位速率	附加數據信道位速度
1	64 kb/s	0 kb/s
2	56 kb/s	8 kb/s
3	48 kb/s	16 kb/s

　　G.722編譯碼系統採用子帶自適應差分脈衝編碼調製(sub-band adaptive differential pulse code modulation，SB-ADPCM)技術。在這個系統中，用正交鏡象濾波器(QMF)把頻帶分割成兩個等帶寬的子帶，分別是高頻子帶和低頻子帶。在每個子帶中的信號都用ADPCM進行編碼。圖3-20是QMF的頻率響應曲線，圖3-21表示G.722的簡化框圖。低頻帶寬略大於常規的電話話音帶寬。對高子帶分配2位表示每個樣本值，而低子帶分配6位。因爲64 kb/s的G.722標準主要還是針對寬帶話音，其次纔是音樂。

圖3-20 QMF濾波器的頻率響應特性

圖3-21 7 kHz音頻信號64 kb/s數據率的編譯碼方塊圖

3.7 線性預測編碼(LPC)的概念

　　線性預測編碼(linear predictive coding，LPC)是一種非常重要的編碼方法。從原理上講，LPC是通過分析話音波形來產生聲道激勵和轉移函數的參數，對聲音波形的編碼實際就轉化爲對這些參數的編碼，這就使聲音的數據量大大減少。在接收端使用LPC分析得到的參數，通過話音合成器重構話音。合成器實際上是一個離散的隨時間變化的時變線性濾波器，它代表人的話音生成系統模型。時變線性濾波器既當作預測器使用，又當作合成器使用。分析話音波形時，主要是當作預測器使用，合成話音時當作話音生成模型使用。隨着話音波形的變化，週期性地使模型的參數和激勵條件適合新的要求。
　　線性預測器是使用過去的P個樣本值來預測現時刻的採樣值x(n)。如圖3-22所示，預測值可以用過去P個樣本值的線性組合來表示：
　　x_pre(n) ＝ -[a₁x(n-1)+a₂x(n-2)+……+a_px(n-p)] ＝
　　爲方便起見，式中採用了負號。殘差誤差(residual error)即線性預測誤差爲
　　　e(n)＝x(n)-x_pre(n) ＝
　　這是一個線性差分方程。
　　在給定的時間範圍裏，如[n₀,n₁]，使e(n)的平方和即β＝[e(n)]²爲最小，這樣可使預測得到的樣本值更精確。通過求解偏微分方程，可找到係數a_i的值。如果把發音器官等效成濾波器，這些係數值就可以理解成濾波器的係數。這些參數不再是聲音波形本身的值，而是發音器官的激勵參數。在接收端重構的話音也不再具體復現真實話音的波形，而是合成的聲音。

圖3-22 預測概念

3.8 GSM編譯碼器簡介

　　除了ADPCM算法已經得到普遍應用之外，還有一種使用較普遍的波形聲音壓縮算法叫做GSM算法。GSM是Global System for Mobile communications的縮寫，可譯成全球數字移動通信系統。GSM算法是1992年柏林技術大學(Technical University Of Berlin)根據GSM協議開發的，這個協議是歐洲最流行的數字蜂窩電話通信協議。
　　GSM的輸入是幀(frame)數據，一幀(20毫秒)由採樣頻率爲8 kHz的帶符號的160個樣本組成，每個樣本爲13位或者16位的線性PCM(linear PCM)碼。GSM編碼器可把一幀(160×16位)的數據壓縮成260位的GSM幀，壓縮後的數據率爲1625字節，相當於13 kb/s。由於260位不是8位的整數倍，因此編碼器輸出的GSM幀爲264位的線性PCM碼。採樣頻率爲8 kHz、每個樣本爲16位的未壓縮的話音數據率爲128 kb/s，使用GSM壓縮後的數據率爲：
　　　　(264位×8000樣本/秒)/160樣本=13.2 千位/秒
　　GSM的壓縮比：128:13.2 = 9.7，近似於10:1。

練習與思考題

用自己的語言說出下面3種話音編譯碼器的基本想法。
① 波形編譯碼器，②音源編譯碼器，③混合編譯碼器
列出你所知道的話音編譯碼器的主要指標(至少2個)。
試說混合編譯碼器的發展過程。
什麼叫做均勻量化？什麼叫做非均勻量化？
什麼叫做m 律壓擴？什麼叫做A律壓擴？
G.711標準定義的輸出數據率是多少？T1的數據率是多少？T2的數據率是多少？
下圖是DM編碼器的原理圖，如果你已經學過模擬電路和數字電路技術基礎，請分析該電路是如何完成增量調製編碼的。

DM編碼器原理圖

自適應脈衝編碼調製(APCM)的基本思想是什麼？
差分脈衝編碼調製(DPCM)的基本思想是什麼？
自適應差分脈衝編碼調製(ADPCM)的兩個基本思想是什麼？

參考文獻和站點

Jason Woodard. Speech Coding.
http://www-mobile.ecs.soton.ac.uk/jason/speech_codecs/ (瀏覽日期：1999年1月30日)
Esin Darici Haritaoglu. Wideband Speech and Audio Coding.
http://www.umiacs.umd.edu/～desin/Speech1/new.html (瀏覽日期：1999年1月30日)
美國普渡大學課程：http://shay.ecn.purdue.edu/～ee649/ (瀏覽日期：1999年2月4日)
通信器件：http://www.okisemi.com/public/nf/TelecomTables-1.html (瀏覽日期：1999年2月4日)
Thomas J. Lynch, Ph.D.. Data Compression Techniques and Application. Van Nostrand Reinhold Company，1985
Thomas W. Parsons. Voice and Speech Processing. McGraw-Hill Book Company. 1986
Sadaoki Furui. Digital Speech Processing, Synthesis, and Recognition. Marcel Dekker, INC.，1989
CCITT. Recommendation G.711, Pulse Code Modulation (PCM) of Voice Frequences, Blue Book, Vol.III, Fascicle III.4. 1988
CCITT. Recommendation G.721, 32 kb/s Adaptive Differential Pulse Code Modulation(ADPCM), Blue Book, Vol.III, Fascicle III.4. 1988
CCITT. Recommendation G.722, 7 kHz Audio Coding With 64 kb/s, Blue Book, Vol.III, Fascicle III.4. 1988
Paul Mermelstein, G.722, A New CCITT Coding Standard for Digital Transmission of Wideband Audio Signal. IEEE Communications Magazine，Vol.26, No.1，January 1988
CCITT. Recommendation G.723, Extensions of Recommendation G.721 ADPCM to 24 and 40 kb/s for DCME Application, Blue Book, Vol.III, Fascicle Ⅲ.4. 1988
CCITT. Recommendation, G.725, System Aspects for the use of the 7 kHz Audio codec with 64 kb/s, Blue Book, VolⅢ， Fascicle Ⅲ.4. 1988
CCITT. Study Group XV, Recommendation H.221 Frame Structure for a 64 to 1920 kb/s channel in Audiovisual Teleservices, Revised. 1990
J.Reimer, M.McMahan and M.Arjmand. 32 kb/s ADPCM with the TMS32010. Texas Instruments, 1986
Song, C., Garodnic, J., and Schilling, D.C.. A VariableStep-size Robust Delta Modulator. IEEE Trans. on Comm.Tech，Vol. COM-19, No.6，December 1971，pp1033～1044
林福宗, 陸達編著. 多媒體與CD-ROM. 北京：清華大學出版社，1995.3，171-193
GSM技術介紹(瀏覽日期1999年1月)：
① http://www.wpi.edu/～murti/mqp/2_2.html
② http://www.wpi.edu/～murti/mqp/contents.html
③ http://www.imt-2000.com/wcdma/wcdma/sub_tech/brochures/umts.htm

第3章話音編碼

10分鐘搞定Mysql主從部署配置

如何使用 JS 判斷用戶是否處於活躍狀態

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

lightdb數據庫超時相關控制參數

lightdb秒級增加列和刪除列（not null帶默認值）

Java ThreadPoolShutdown

第10章 MPEG電視

第3章話音編碼

位圖資料

BMP文件格式分析

數字圖像處理編程入門—第1章 Windows位圖和調色板

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

第3章 話音編碼

第3章話音編碼