語音識別學習日誌 2018-7-15 語音識別基礎知識準備(1)

2018-7-15

頻譜

頻譜是頻率譜密度的簡稱,是頻率的分佈曲線

聲音的構成

聲音頻率決定音調;聲音振幅決定大小;聲音諧波決定音色。之所以能分辨出不同樂器和不同人,只因爲聲音中諧波成份不同。

聽感音高(聲音音高)

音高指各種不同高低的聲音,即音的高度,音的基本特徵的一種。音的高低是由振動頻率決定的,兩者成正相關關係:頻率(即單位時間內振動次數的多少)高則音"高",反之則"低"。

聽覺響度(聲音響度)

又稱音量。人耳感受到的聲音強弱,它是人對聲音大小的一個主觀感覺量。響度的大小決定於聲音接收處的波幅,就同一聲源來說,波幅傳播的愈遠,響度愈小;當傳播距離一定時,聲源振幅愈大,響度愈大。響度的大小與聲強密切相關,但響度隨聲強的變化不是簡單的線性關係,而是接近於對數關係。當聲音的頻率、聲波的波形改變時,人對響度大小的感覺也將發生變化。

聲道

Sound Channel,是指聲音在錄製或播放時在不同空間位置採集或回放的相互獨立的音頻信號,所以聲道數也就是聲音錄製時的音源數量或回放時相應的揚聲器數量。

諧波

harmonicwavelength,是一個數學或物理學概念,是指周期函數或週期性的波形中能用常數、與原函數的最小正週期相同的正弦函數和餘弦函數的線性組合表達的部分

共振峯

共振峯是指在聲音的頻譜中能量相對集中的一些區域,共振峯不但是音質的決定因素,而且反映了聲道的物理特徵。

線性預測

linearprediction,根據隨機信號過去的p個已知抽樣值序列Tn-1Tn-2…Tn-p,預測現時樣值Tn的估計值的方法。預測公式是一個線性方程,所以這種預測稱爲線性預測。

LPC

線性預測編碼,LPC通過分析話音波形來產生聲道激勵和轉移函數的參數,對聲音波形的編碼實際就轉化爲對這些參數的編碼,這就使聲音的數據量大大減少

其核心思想是利用輸入信號u和歷史輸出信號s的線性組合來估計輸出序列s(n)

-過濾器模型、元音、輔音

參考人聲的產生,氣流從肺部出來,通過聲帶產生震動,形成聲源激勵。聲源路經由聲道構成的過濾器,輸出最終的語音信號。聲帶只有在輸出濁音時才震動,此時聲源激勵爲準週期信號,也稱爲聲門脈衝,其頻譜呈單調遞減的趨勢。聲道的頻譜特性可由共振峯表徵,在頻譜上表現爲各峯值。輸出語音的頻譜特性爲前兩者頻譜的疊加。

上述的語音產生模型也稱爲源-過濾器模型(Source-Filter Model),聲帶震動產生的準週期信號爲源,聲道爲過濾器。然而在真實的語音產生過程中,聲帶具有震動和不震動兩種模式。當聲帶震動時,產生濁音(voiced sound),此時聲源爲準週期脈衝信號,模擬聲帶的週期震動,元音多爲此類;當聲帶不震動時,產生清音(unvoiced sound),此時聲源爲白噪聲隨機信號,模擬氣體紊流與摩擦,輔音多爲此類。

LPCC

線性預測係數(LPCC):很好的模擬語音信號,語音信號是由聲帶振動發出的, 聲帶可以不振動也可以有周期的振動,分別對應清音(consonants)和濁音(vowels),每一段聲管則對應一個 LPC 模型的極點。通常極點個數在 12-16 個左右,即可清晰地描述信號的特徵了。

MFCC

Mel頻率倒譜系數(MFCC),人的聽覺系統是一種特殊的非線性系統,它對不同頻率信號的響應靈敏度有較大區別。 MFCC參數比 LPC 參數更能夠充分利用人耳的感知特性提高系統的識別性能,因其良好的抗噪性和魯棒性而應用廣泛

sphinx中也是用MFCC特徵的,用幀frames去分割語音波形,每幀大概10ms,然後每幀提取可以代表該幀語音的39個數字,這39個數字也就是該幀語音的MFCC特徵,用特徵向量來表示。

Sphinx

CMU Sphinx(簡稱Sphinx)是美國卡內基梅隆大學開發的一系列語音識別系統的總稱。在2000年,卡內基梅隆的Sphinx小組致力於開源幾個語音識別器組件,包括Sphinx 2和後來的Sphinx 3(2001年)。 語音解碼器帶有聲學模型和示例應用程序。

 

 

 

 

 

 

發佈了118 篇原創文章 · 獲贊 35 · 訪問量 40萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章