目錄
瞭解人類是如何聽見語音和感知語音有助於我們研究如何去表徵語音信號本身,以及更好的設計語音信號處理系統。
1. 言語鏈
言語鏈將語言交流過程分爲語言學層面、生理學層面和聲學層面,即
具體而言,言語鏈包含以下過程:
-
語音的產生
-
對說話人的聽覺反饋
-
語音的傳輸
-
語音感知和被收聽者理解
2. 聽覺器官
聽覺器官是耳,如上圖所示,而我們具有兩個耳朵可以完成以下功能:
-
聲音定位:根據雙耳效應,依靠雙耳間的音量差、時間差和音色差判別聲音方位的效應。
-
聲音消除:根據雙耳掩蔽極差,利用雙耳聽覺可有意識地注意傾聽來自某一方向的聲音信號,而排除其他噪聲的干擾,也稱爲雞尾酒會效應。
聽覺器官中需要着重講一下耳蝸,它是由基底膜分隔的充滿液體的腔室,聽神經通過內部毛細胞連接至基底膜,耳蝸入口處的機械振動會產生駐波,從而導致基底膜在與輸入聲波頻率(共振峯)相對應的頻率處以及在基底膜上與這些頻率相關的某個位置振動。我們將耳蝸展開,如下圖所示。
不同頻率的振動引起的基底膜不同形式的行波傳播,主要由基底膜的某些物理性質決定的。基底膜愈靠近底部,共振頻率愈高,愈靠近頂部,共振頻率愈低;這就使得低頻振動引起的行波在向頂部傳播時阻力較小,而高頻振動引起的行波只侷限在底部附近。
3. 聽覺的機理
耳具體可以分爲外耳,中耳和內耳,聽覺產生的過程中它們的功能分別爲:
-
外耳:外耳收集聲音並送入耳道
-
中耳:在中耳中,聲波撞擊鼓膜,並通過一些列操作將聲波轉化爲內耳的機械振動
-
內耳:耳蝸是由基底膜分隔充滿液體的腔室,將聲壓信號轉換爲電脈衝,然後通過聽覺神經傳遞到大腦
我們將上述過程抽象一下,得到如下圖所示的模型。
4. 聽覺掩蔽
聽覺掩蔽是由於某些聲音存在導致其他聲音而變得不那麼清晰甚至無法聽見,包括頻域掩蔽和時域掩蔽。
4.1 頻域掩蔽
頻域掩蔽:頻率接近時,分貝特別高的聲音會把臨近的分貝低的掩蔽
4.2 時域掩蔽
時域掩蔽:在持續的一段時間內,聲音高的會把聲音低的掩蔽. 而且高聲音會把前面 50ms 的低聲音和後面 100ms 的低聲音掩蔽.
5. 聽學模型
一般聲學模型應該包含以下部分:
-
非線性頻率尺度的頻譜分析
-
頻譜幅值壓縮
-
響度壓縮
-
根據等響曲線降低頻率過高或者過低部分的靈敏度
-
較長間隔的時域特徵
-
音調臨界頻帶內的音調或噪聲的聽覺掩蔽
下面介紹兩種常見的聲學模型,感知線性預測(Perceptual Linear Prediction,PLP)模型和Seneff聽覺模型。
5.1 感知線性預測模型
感知線性預測模型流程如下圖所示。PLP模型採用變帶寬梯形濾波器的Bark頻率尺度進行臨界帶譜分析,非對稱濾波器高頻截止時斜率爲25 dB/Bark ,低頻截止時斜率爲10dB/Bark;利用等響曲線近似人的聽覺對信號對不同頻率分量設定不同的靈敏度;利用聲強與感知響度之間的非線性關係和三次根壓縮法對頻率處理;一種基於五階分析的自迴歸全極點模型,可以對頻帶進行比臨界頻帶更廣泛的集成
5.2 Seneff聽覺模型
Seneff聽覺模型流程如下圖所示。第1階段對語音進行預處理以消除非常低和非常高的頻率分量,然後使用40個Bark濾波器處理。第二階段通過半波整流,短期適應,同步減少和快速自動增益控制等過程,對內部毛細胞,突觸和神經纖維的組合的(概率)行爲進行建模。神經纖維輸出是一組隨時間推移發射的概率。第三階段利用激發概率信號提取與感知有關的信息。包絡檢測器估算平均速率譜,同步檢測器實現神經纖維的鎖相特性,從而增強共振峯處的譜峯並跟蹤動態譜變化。
參考文獻:
[1]. 孔繁之,生理學
[2]. UCBS, Digital Speech Process
[3]. 胡航, 語音信號處理
語音信號處理交流羣: 652292630