語音合成vocoder(四) aperiodicity參數


基本概念

“aperiodicity” is defined as the power ratio between the speech signal and the aperiodic component of the signal

它是跟混合激勵有關的參數,爲了獲得自然的聲音,激勵源不能只使用週期信號,也需要包含一些非週期信號。一種典型的非週期信號是噪音。

PLANTINUM[1]

使用excitation signal替換aperiodicity

X(ω)=Y(ω)H(ω)

首先根據F0標出voiced section,然後y2(t) 最大的點對應加窗的時間點,使用長度爲2T0 的Hanning窗。
合成語音的時候直接使用求出的x(t)h(t) 進行卷積即可。

D4C[4]

D4C需要計算不同頻帶對應的功率比。

1.計算羣延遲

τgω=dϕ(ω)dω

假設所加窗口的中心點在τ ,那麼最後求出的羣延遲τ(ω,τ)τ 有關,使用了一些方法消除了參數τ ,也就是最後得到的羣延遲跟窗口位置無關。

2.修正參數

這裏寫圖片描述
上一步計算加窗會帶來頻譜上的失真(上圖a),這裏進行smooth恢復出來原始的信號。

τgs(ω)=2ω0ω04ω04τg(ω+λ)dλ

τgb(ω)=1ω0ω02ω02τgs(ω+λ)dλ

τD=τgs(ω)τgb(ω)

3.估計band-aperiodicity

中心頻率ωc 對應的時域信號

p(t,ωc)=F1[w(ω)τD(ω(ωcwl2))]

wl 表示窗的長度
pc(t,ωc)=1t0ps(λ,ωc)dλ

其中ps 是由功率譜|p|2 在時間上按降序排序得到,而且|p|2 做了歸一化
band aperiodicity可得
ap(ωc)=10log10(pc(2wbw,ωc))

wbw 表示窗函數的主瓣寬度。

參考文獻

[1].PLATINUM: A method to extract excitation signals for voice synthesis system
[2].D4C, a band-aperiodicity estimator for high-quality speech synthesis

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章