語音信號處理基礎(一)

語音信號處理基礎(一)

1.緒論

1.1概述

語言是人類交換信息最方便、最快捷的一種方式,在高度發達的信息社會中,用數字化的方法進行語音的傳送、存儲、識別、合成和增強等是整個數字化通信網中最重要、最基本的組成部分之一。

語音信號處理技術主要可以應用到:

  1. 數字電話通信

  2. 高音質的窄帶語音通信系統

  3. 語言學習機

  4. 聲控打字機

  5. 自動翻譯機

  6. 智能機器人

  7. 新一代計算機語音智能終端

  8. 許多軍事上的應用

語音信號處理是一門新興的邊緣科學,它是語音學與數字信號處理兩個學科相結合的產物。它和認知科學、心理學、語音學、計算機科學、模式識別和人工智能等學科有着緊密的聯繫。

語音信號處理的目的

是要得到某些語音特徵參數以便高效地傳輸或存儲;或者是通過某種處理運算以達到某種用途的要求,例如人工合成語音、辨識出講話者、識別出講話的內容等。

隨着現代科學和計算機技術的發展,除了人與人之間的自然語言的通信方式之外,人機對話及智能機器等領域也開始使用語言。

語音信息的交換大致上可以分爲三大類:

  1. 人與人之間的語音通信:包括語音壓縮與編碼、語音增強等

  2. 第一類人機語言通信問題,指的是機器講話、人聽話的研究,即語音合成

  3. 第二類人機語音通信問題,指的是人講話、機器聽話的情況,即語音識別和理解

1.2 語音信號處理的發展

1876年:貝爾電話的發明,該技術首次用聲電、電聲轉換技術實現了遠距離的語音傳輸。

1939年:Homer Dudley提出並研製成功的第一個聲碼器,從此奠定了語音產生模型的基礎。

19世紀60年代:亥姆霍茲應用聲學方法對元音和歌唱進行了研究,從而奠定了語言的聲學基礎。

20世紀40年代:一種語言聲學的專用儀器——語譜圖儀問世了。

1948年:美國Haskins實驗室研製成功“語音回放機”,該儀器可以把手工繪製在薄膜上的語譜圖自動轉換成語音,並進行語音合成

20世紀50年代:語言產生的聲學理論開始有了系統的論述。

隨着計算機的出現,語音信號處理的研究工作得到了計算機技術的幫助,使得過去受人力、時間限制的大量的語音統計分析工作,得以在電子計算機上進行。在此基礎上,語音信號處理不論在基礎研究方面,還是在技術應用方面,都取得了突破性的發展。

1.2語音信號處理的三個主要分支

語音合成技術、語音編碼和語音識別技術)的發展和現狀。

1.2.1 語音合成

 最早的合成器:

 1835年:W.von Kempelen發明,經Weston改進的機械式會講話的機器。該機器完全模仿人的發音生理過程,分別用風箱、特別設計的哨和軟管來模擬肺部的空氣動力、模擬口腔。

 最早的電子式語音合成器:

 1939年:Homer Dudley發明的聲碼器,它不是簡單地模擬人的生理過程,而是通過電子線路來實現基於語音產生的源-濾波器理論。

 但真正具有實用意義的近代語音合成技術是隨着計算機技術和數字信號處理技術的發展而發展起來的,主要是採用計算機產生高清晰度、高自然度的連續語音。

 早期的研究主要採用參數合成方法:

 1973年:Holmes發明的並聯共振峯合成器

 1980年:Klatt發明的串/並聯共振峯合成


 最具代表性的文本轉換系統:

 1987年:美國DEC公司的DECtalk

 自20世紀80年代末期至今,語音合成技術又有了新的進展,特別是1990年提出的基因同步疊加(PSOLA)方法,使基於時域波形拼接方法合成的語音的音色和自然度大大提高。

 20世紀90年代:基於PSOLA技術的法語、德語、英語、日語等語種的文語轉換系統都已經研製成功。

 我國的漢語語音合成研究起步較晚,但從20世紀80年代初就基本上與國際研究同步發展。大致也經歷了共振峯合成、LPC合成到應用PSOLA技術的過程。

 現階段語音合成的最大進展是已經能實時地將任意文本轉換成連續可懂的自然語句輸出。

名詞解釋

共振峯

共振峯是指在聲音的頻譜中能量相對集中的一些區域,共振峯不但是音質的決定因素,而且反映了聲道(共振腔)的物理特徵。

共振峯是反映聲道諧振特性的重要特徵,它代表了發音信息的最直接的來源,而且人在語音感知中利用了共振峯信息。所以共振峯是語音信號處理中非常重要的特徵參數,已經廣泛地用作語音識別的主要特徵語音編碼傳輸的基本信息

共振峯信息包含在頻率包絡之中,因此共振峯參數提取的關鍵是估計自然語音頻譜包絡,一般認爲譜包絡中的最大值就是共振峯。

共振峯參數包括共振峯頻率、頻帶寬度和幅值,共振峯信息包含在語音頻譜的包絡中。因此共振峯參數提取的關鍵是估計語音頻譜包絡,並認爲譜包絡中的最大值就是共振峯。利用語音頻譜傅里葉變換相應的低頻部分進行逆變換,就可以得到語音頻譜的包絡曲線。依據頻譜包絡線各峯值能量的大小確定出第1~第4共振峯。

目前的提取語音共振峯的方法:倒譜法、LPC(線性預測編碼)譜估計法、LPC倒譜法等 。

(1)基於線性預測(LPC)的應用技術現狀

肺部氣流衝擊聲帶通過聲道的響應,形成語音。不同的聲道形狀產生不同的聲道響應,導致不同的語音。就聲道的數學模型,主要有兩種觀點:

a.把聲道看作由多個不同截面積的聲管串聯而成,即聲管模型;

b.把聲道看作諧振腔,共振峯就是該腔體的諧振頻率,即共振峯模型。

因人耳聽覺的柯替氏器官就是按頻率感受而排列其位置的,實踐證明共振峯模型方法是非常有效的。線性預測編碼(LPC)是進行語音信號分析、語音信號編碼最有效的技術之一 ,其重要性在於提供了一組簡潔的語音信號模型參數,比較精確地表徵了語音信號的幅度譜,而分析它們所需的計算量相對而言並不大口 語音信號共振峯的LPC分析方法的一個主要特點在於能夠由預測係數構成的多項式中精確地估計共振峯頻率帶寬。在過去的研究中,已有許多利用LPC分析提取共振峯方法被提出 。

(2)倒譜法的應用技術現狀

倒譜法根據對數功率譜的逆傅立葉變換,能夠分離頻譜包絡和細微結構,很精確地得到基音頻率和共振峯信息,但它的運算量比較大。

當採用無噪語音時,用倒譜進行基音提取的效果是很理想的。

當存在加性噪聲時,在對數功率譜的低電平部分會被噪聲填滿,從而掩蓋了基音諧波的週期性。這意味着倒譜的輸入不再是純淨的週期性成分,而倒譜中的基音峯值將會展寬,並受到噪聲的污染從而使倒譜檢測方法的靈敏度也隨之下降。在基音估計中還可以使用經過中心削波或三電平削波後的自相關方法,這種方法在信噪比低的情況下可以獲得良好的性能。

基音(fundamental tone)

一般的聲音都是由發音體發出的一系列頻率、振幅各不相同的振動複合而成的。這些振動中有一個頻率最低的振動,由它發出的音就是基音( 發音體整體振動產生的音(振動長度越大,頻率越小),決定音高 ),其餘爲泛音( 發音體部分振動產生的音,決定音色 )。

基因同步疊加(PSOLA)

PSOLA是用於波形編輯語音合成技術中對合成語音的韻律進行修改的一種算法。

PSOLA算法的核心是基音同步,它把基音週期的完整性作爲保證波形及頻譜連續的工作前提。因此首先要對輸入的原始語音波形進行基音標註,濁音有基音週期,而清音的波形接近於白噪聲,所以在對濁音信號進行基音標註的同時,爲保證算法的一致性可令清音的基音週期爲一常數,基音標註的內容包括:開始標註的位置(即週期信號在語音信號段中的起始點)、基音週期的個數每個基音週期的起始點在語音詢號中的位置序列。進行完語音標註後的合成基元的原始波形,可使用PSOLA算法以基音週期爲單位進行波形段的插入、刪除和修改。
PSOLA算法分以下三個步驟:

(1)對原始波形進行分析,產生非參數的中間表示

(2)對中間表示形式進行修改

(3)將修改過的中間表示重新合成爲語音信號。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章