特點
power-normalized cepstral coefficients相比於MFCC特徵:
- 在噪聲和混響場景下提升識別效果,尤其在訓練語料是clean語音的時候
- 相比於MFCC,計算量提升34.6%
使用pncc相比mfcc,噪聲和口音測試集可以得到10-15%的相對提升
細節
和MFCC/PLP特徵的整體對比如上圖
filter bank
相比於MFCC的triangular filters,PNCC使用gammatone filters,40維,截止頻率分別是200/8000。
獲得
medium-time power calculation
由於噪聲的能量變化相比語音慢很多,所以更大的時間窗口可以得到更好的性能,所以對每一幀進行了平滑處理(左右2幀做平均)。
得到的
asymmetric noise suppression
因爲語音的能量相比噪聲變化快,所以使用譜減法來過濾掉低頻部分以達到抑制噪聲的目的。
其中的temperal masking的引入可以減弱混響的影響,首先獲得每個channel的moving peak,如果某一幀的能量低於這個peak曲線,縮小對應的能量。
獲得
spectral weight smoothing
在不同的channel之間做平滑。
其中
最後調製
mean power normalization
均值的獲取使用online的形式
歸一化以後:
rate-level nonlinearity
相比於MFCC使用的log非線性函數,PNCC使用指數函數,更符合人耳聽覺神經的壓縮感知
參考
Power-Normalized Cepstral Coefficients (PNCC) for Robust Speech Recognition
http://www.cs.cmu.edu/~robust/archive/algorithms/PNCC_C