語音合成vocoder(二) 基頻參數


基本概念

聲帶每開啓和關閉一次的時間就是基音週期(pitch period),倒數即爲音頻頻率(pitch frequency)[1]。
基音頻率取決於聲帶的大小、厚薄、鬆緊程度,以及聲門上下之間的氣壓差的效應等。最低可達80Hz,最高可達500Hz,老年男性偏低,小孩女性偏高。它反映了聲調的變化。

常用方法

常用的有自相關方法和倒譜方法
Autocorrelation Function(ACF)運算可以用於尋找週期信號的週期。因爲週期信號的自相關函數也是週期信號,而且週期一致。比如YIN算法[2]就是使用的自相關方法。

rt(τ)=j=t+1t+Wxjxj+τ

W表示相關函數的窗口,τ 表示相關函數的延時。

DIO

World裏面使用DIO[3][4]提取pitch,相比之前的方法速度更快。主要分爲三步:
1. 使用不同截止頻率的低通濾波器進行濾波
如果濾波後的信號只包含一個週期T0 的信號,即爲pitch。由於pitch未知,會使用多個不同截止頻率的濾波器。
2. 計算F0候選以及置信度
取四個週期,計算每個週期的zero-crossing/peak/dip intervals應該一致,以此爲標準計算置信度。
這裏寫圖片描述
3. 選取置信度最高的頻率作爲最後的pitch

Harvest

參考文獻

[1].《語音信號處理》 韓紀慶等 P15
[2].YIN, a fundamental frequency estimator for speech and music
[3].WORLD: a vocoder-based high-quality speech synthesis system for real-time applications
[4].Fast and Reliable F0 Estimation Method Based on the Period Extraction of Vocal Fold Vibration of Singing Voice and Speech

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章