從發聲機理到聽覺感知認識聲音的本質

 

                               從發聲機理到聽覺感知認識聲音的本質


本內容全原創,因作者才疏學淺,偶有紕漏,望不吝指出。本內容由靈聲訊音頻-語音算法實驗室整理創作,轉載和使用請與“靈聲訊”聯繫,聯繫方式:音頻/識別/合成算法QQ羣(696554058)


§1.1 語音產生與感知

語音信號的產生和感知對應不同的數學模型,爲了處理和實現更加簡便,要求數學模型應儘可能簡單。語音產生和感知過程本就複雜,且所包含的信息十分多樣,要想找到一種能夠完整描述發聲和感知特性的模型很難,但是目前還在努力尋找此類模型。最早是在1960年由Frant提出的線性預測模型,該模型是模擬語音產生較爲成功模型,所代表的參數有LPC,LPCC等,後來出現了基於聽覺特性的特徵參數則,即目前最常用的MFCC。因此,研究語音發聲機理和聽覺特性是提取有效特徵參數的關鍵。

§1.1.1 發聲機理研究

人類的發音是一個複雜的過程,它是在大腦支配下,由構成人體的發音器官生理運動產生的。通常人體的發音器官指:肺,氣管,喉和聲道。下面給出聲道縱剖面圖,如圖3.1所示。同時分別介紹各自在發聲過程中的功能。肺的主要功能是在血液和空氣之間進行氣體交換。氣管是連接肺和喉,是發聲氣流經過的通道。喉是由肌肉和軟骨組成,是發聲的關鍵部位,它包含發音器官聲帶[37]。在整個過程中,聲帶就相當於激勵源,爲聲音的產生提供觸發信號。

                                              

                                                                                              圖1.1 聲道縱剖面圖

下圖1.2是簡化的實際發聲機理的示意圖,如圖所示發聲過程先是由空氣經過肺部噴射形成空氣流,到達聲帶後引起聲帶張弛振動,即聲門週期性開或關。當聲門打開時,空氣流通過就形成一個脈衝,當聲門閉合時,空氣流被阻止恰好形成間隙期[37]。因此,在這往復的過程中聲門處就形成一個準週期脈衝空氣流。如果空氣流經過咽喉到達鼻腔和口腔,經過嘴脣和鼻孔輻射便產生濁音[37];當空氣流經過通道時恰好收縮變小便產生清音或摩擦音;當通過時聲道某部位完全閉合,一旦突然開啓便產生爆破音。

                                                        

                                                                                     圖1.2 語音發聲機理示意圖

因此,不同的激勵源產生不同類型的語音。濁音的激勵源是位於聲門的準週期脈衝序列,清音的激勵源是在聲道某個收縮區的空氣湍流,爆破音激勵源是在聲道某閉合點處積聚起來的氣壓及其瞬間釋放[38]。發濁音時,脈衝週期不僅與聲帶長度有關,而且與聲帶厚度和張力有關。通常聲帶越短,厚度越薄,張力越大,音調越高,即濁音基音頻率越高。男性的基音頻率範圍爲50~250Hz,女性基音頻率範圍爲100~500Hz。

語音信號隨時間變化的頻譜特性可以用語譜圖來表示[39],它是一種三維圖形,縱軸代表頻率,橫軸代表時間,圖像的顏色深淺正比於信號能量。圖1.3是測試語音“深圳靈聲訊科技”的語譜圖。

                                                  

                                                                              圖1.3 “深圳靈聲訊科技”語譜圖

§1.1.2 聽覺特性研究

建立高性能語音識別系統不僅要發聲準確,還需要聽覺準確,於是研究人類的聽覺特徵是關鍵。接下來主要介紹聽覺特性的外圍系統,特性,掩蔽效應等,剖析涉及聽覺特徵參數的各個環節。

1. 外圍聽覺系統

爲了更好地應用聽覺特性,先介紹外圍聽覺系統如圖1.4所示。從圖中可以清晰可見,外耳、中耳、內耳以及聽覺神經纖維共同組成了人的聽覺系統。

(1) 外耳

外耳是聽覺器官的第一層,屬於系統結構的最外層。但如果沒有外耳,聽覺就不會那麼靈敏,接受聲音的能力就會變得很差,許多聲音就可能聽不到。成年人的外耳道約長2.7cm,直徑大約爲0.7cm。一般認爲,外耳在聲音感知中有兩個基本作用,一是聲源定位,二是聲音放大。除了外耳道的共振可使聲音放大外,頭的衍射效應也會增加鼓膜處聲壓,使得聲音放大約20倍。

                                    

                                                                                    圖 1.4聽覺系統結構圖

(2) 中耳

中耳是由錘骨、砧骨和鐙骨三塊聽小骨組成。它有兩個基本功能:一是進行阻抗變換,即匹配中耳兩端的聲音阻抗[28];二是保護內耳。在一定聲強範圍內,聲音是由聽小骨線性傳遞,當聲強特別大時,它開始非線性傳遞[40]。

(3) 內耳

內耳主要由耳蝸構成,耳蝸是將聲音通過機械變換產生神經信號的器官[28]。耳蝸長約3.5cm,最寬處約爲0.32cm,呈螺旋狀盤繞2.5~2.75圈。整個耳蝸被隔膜分成三個部分,中間的隔膜叫基底膜,上部爲瑞士膜,中間部分稱爲耳蝸管。

2. 聽覺特性

人耳聽覺特性來自於聽覺的主觀感知,主要包括聽域與聽閾、音調、響度和遮掩效應。

(1) 聽域與聽閾

聽域是指人能感知聲音的範圍。人耳可以聽到的頻率範圍一般爲20Hz~20KHz,年輕人可以聽到20KHz的聲音,而老年人只能聽到10KHz左右的聲音。正常人能感知聲音的強度爲0dB~128dBSPL(聲壓級Sound Power Level),這裏基準聲壓級(0dB SPL)定義爲

                                                                                       

。聽閾是指人耳能聽到的最低聲壓級[41]。純音的聽閾與頻率有關:1KHz純音的聽閾大約爲4dB,10KHz時聽閾大約爲15dB,到40KHz時聽閾將達到50dB左右。

(2) 音調(pitch)

音調是人耳對不同頻率聲音的一種主觀感受[42]。頻率高的音,人感覺其音調也高,反之,人感覺音調低的音頻率也低。人們定義一個聽閾高於40dB,頻率爲1kHz純音的音調爲1000Mel(Mel是音調度量單位)。音調與頻率之間的關係近似滿足方程(1-1):

                                                         

(3) 響度級、響度與掩蔽效應

人耳對不同頻率純音的辨別力是不一樣的,響度級(Loudness Level)正是用來表徵辨別靈敏度的物理量。響度級的單位爲“方”(Phon),1方在數值上等於1kHz純音的聲強級。爲了確定一個音的響度級,需要調節1kHz純音的聲強直到它聽起來和目標音一樣響,此時1kHz純音的聲壓級數值上等於該音的響度級。

相比較響度級,響度單位“宋”(Sone)被用來刻畫主觀感受的聲音響度及其變化,這種感受與音強、頻率、波形都有關係。定義一個聽閾高於40dB,頻率爲1kHz純音的響度爲1 Sone。如果一個音被認爲響度是該純音的K倍,則其響度爲K Sone。響度和響度級之間滿足公式(1-2)的轉換關係:

                                                                        

上式表明,當響度的值增加一倍時,響度級的值增加約10Phon;

一個聲音的聽閾因另外一個聲音的出現而升高的現象成爲掩蔽效應[43]。前者被稱爲被掩蔽聲,後者被稱爲掩蔽聲。被掩蔽聲能被覺察到時掩蔽聲的強度稱爲被掩蔽聲的掩蔽閾限。掩蔽效應已成功運用於語音信號處理中來提高處理質量。

                                                            

 

 

 

參考文獻:

[1] 姚天仁. 數字語音處理[M].武漢:華中科技大學出版社.2003.

[2] 楊行峻,遲惠生等. 語音信號數字處理[M].北京:電子工業出版社,1996.

[3] 王炳錫,屈丹,彭煊. 實用語音識別基礎[M].北京:國防工業出版社. 2005.

[4] Saldanha, Jennifer C. Ananthakrishna, T.Pinto, Rohan. Vocal Fold Pathology Assessment Using Mel-Frequency Cepstral Coefficients and Linear Predictive Cepstral Coefficients Features[J].Journal of Medical Imaging and Health Informatics, Volume 4, Number 2, April 2014, pp. 168-173(6).

[5] 王敏妲. 語音識別技術的研究與發展[J].微型機與應用,2009,23(3):1-2,6.

[6] 李璐. 基於語音識別的拼音學習系統設計與實現[D].北京:北京郵電大學,2010.

[7] Hilman F. Pardede, Koji Iwano, Koichi Shinoda. Feature normalization based on non-extensive statistics for speech recognition[J].Speech Communication 55 (2013) 587–599.

[8] Sonkamble B.A. Doye D.D. An overview of speech recognition system based on the support vector machines[C].Computer and Communication Engineering, ICCCE 2008. International Conference on 13-15 May 2008.

[9] 吳煒燁. 基於神經網絡語音識別算法的研究[D].中南大學,2009.

[10] 呂雲芳. 基於模板匹配法的語音識別系統研究與基本實現[D].河北工業大學,2005.


本內容由靈聲訊音頻-語音算法實驗室整理,轉載和使用請與“靈聲訊”聯繫,聯繫方式:音頻/識別/合成算法QQ羣(696554058)


                                                               

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章