聲學特徵 PNCC

特點

power-normalized cepstral coefficients相比於MFCC特徵：
- 在噪聲和混響場景下提升識別效果，尤其在訓練語料是clean語音的時候
- 相比於MFCC，計算量提升34.6%

使用pncc相比mfcc，噪聲和口音測試集可以得到10-15%的相對提升

細節

和MFCC/PLP特徵的整體對比如上圖

filter bank

相比於MFCC的triangular filters，PNCC使用gammatone filters，40維，截止頻率分別是200/8000。

獲得P[m,l] ,m表示frame，l表示channel

medium-time power calculation

由於噪聲的能量變化相比語音慢很多，所以更大的時間窗口可以得到更好的性能，所以對每一幀進行了平滑處理(左右2幀做平均)。

Q ¯ [m, l] = 1 2 M + 1 \sum m' = m - M m + M P [m', l]

得到的

Q¯[m,l] 用於後面的噪聲估計和補償

asymmetric noise suppression

因爲語音的能量相比噪聲變化快，所以使用譜減法來過濾掉低頻部分以達到抑制噪聲的目的。

其中的temperal masking的引入可以減弱混響的影響，首先獲得每個channel的moving peak，如果某一幀的能量低於這個peak曲線，縮小對應的能量。
獲得R¯[m,l]

spectral weight smoothing

在不同的channel之間做平滑。

s ¯ [m, l] = (1 l 2 - L 1 + 1 \sum l' = l 1 l 2 R ¯ [ m , l ' ] Q ¯ [ m , l ' ])

其中

l2=min(l+N,L) ，

L 表示channel的個數，

l1=max(l−N,1) ，

N 設爲4
S¯[m,l] 通過medium-time power calculation實現了在時間維度上的平滑，通過spectral weight smoothing則實現了在頻率維度上的平滑，時域是左右2幀，頻域是左右4個channel
最後調製

P[m,l] 得到

T [m, l] = P [m, l] S ¯ [m, l]

mean power normalization

均值的獲取使用online的形式

μ [m] = λ μ μ [m - 1] + 1 - λ μ L \sum l = 0 L - 1 T [m, l]

歸一化以後：

U [m, l] = k T [ m , l ] μ [ m ]

rate-level nonlinearity

相比於MFCC使用的log非線性函數，PNCC使用指數函數，更符合人耳聽覺神經的壓縮感知

V [m, l] = U [m, l] 1 / 15

參考

Power-Normalized Cepstral Coefficients (PNCC) for Robust Speech Recognition
http://www.cs.cmu.edu/~robust/archive/algorithms/PNCC_C

特點

細節

filter bank

medium-time power calculation

asymmetric noise suppression

spectral weight smoothing

mean power normalization

rate-level nonlinearity

參考

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

kaldi feature extraction

kaldi NFS/GlusterFS

kaldi 1d-CNN源碼

cuda 概況和安裝

kaldi 1d-CNN網絡結構

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結