聲學特徵 PNCC


特點

power-normalized cepstral coefficients相比於MFCC特徵:
- 在噪聲和混響場景下提升識別效果,尤其在訓練語料是clean語音的時候
- 相比於MFCC,計算量提升34.6%

使用pncc相比mfcc,噪聲和口音測試集可以得到10-15%的相對提升

細節

這裏寫圖片描述
和MFCC/PLP特徵的整體對比如上圖

filter bank

相比於MFCC的triangular filters,PNCC使用gammatone filters,40維,截止頻率分別是200/8000。
這裏寫圖片描述
獲得P[m,l] ,m表示frame,l表示channel

medium-time power calculation

由於噪聲的能量變化相比語音慢很多,所以更大的時間窗口可以得到更好的性能,所以對每一幀進行了平滑處理(左右2幀做平均)。

Q¯[m,l]=12M+1m=mMm+MP[m,l]

得到的Q¯[m,l] 用於後面的噪聲估計和補償

asymmetric noise suppression

因爲語音的能量相比噪聲變化快,所以使用譜減法來過濾掉低頻部分以達到抑制噪聲的目的。
這裏寫圖片描述
其中的temperal masking的引入可以減弱混響的影響,首先獲得每個channel的moving peak,如果某一幀的能量低於這個peak曲線,縮小對應的能量。
獲得R¯[m,l]

spectral weight smoothing

在不同的channel之間做平滑。

s¯[m,l]=(1l2L1+1l=l1l2R¯[m,l]Q¯[m,l])

其中l2=min(l+N,L)L 表示channel的個數,l1=max(lN,1)N 設爲4
S¯[m,l] 通過medium-time power calculation實現了在時間維度上的平滑,通過spectral weight smoothing則實現了在頻率維度上的平滑,時域是左右2幀,頻域是左右4個channel
最後調製P[m,l] 得到
T[m,l]=P[m,l]S¯[m,l]

mean power normalization

均值的獲取使用online的形式

μ[m]=λμμ[m1]+1λμLl=0L1T[m,l]

歸一化以後:
U[m,l]=kT[m,l]μ[m]

rate-level nonlinearity

相比於MFCC使用的log非線性函數,PNCC使用指數函數,更符合人耳聽覺神經的壓縮感知

V[m,l]=U[m,l]1/15

參考

Power-Normalized Cepstral Coefficients (PNCC) for Robust Speech Recognition
http://www.cs.cmu.edu/~robust/archive/algorithms/PNCC_C

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章