HTK語音識別之MFCC參數基本配置參數解釋

MFCC基本配置參數解釋
SOURCEKIND = WAVEFORM -文件種類是語音
SOURCEFORMAT = WAV -格式是WAV格式
SOURCERATE = 625.0-採樣率是16KHZ(16000個採樣點/s,1個點是1/160000s=625*100ns,100ns是HTK的時間單位)
TARGETKIND=MFCC_E_D_A -目標是MFCC文件,以及energy(E,能量), delta(D,一階導數),delta-delta(A,二階導數)
TARGETRATE=100000 -窗間隔爲10ms(100000*100ns)
WINDOWSIZE=250000 -窗長爲25ms(250000*100ns)  
ZMEANSOURCE=T -將來源文件取zero mean,即去掉DC值
USEHAMMING=T -使用hamming window
PREEMCOEF=0.97 -預加重係數0.97
NUMCHANS=26 -在MEL刻度下等分成26個頻帶,濾波器組的組數
USEPOWER=F -不使用c(0)參數  
ENORMALISE = T-對能量歸一化
CEPLIFTER = 22 -倒譜升降係數
NUMCEPS = 12-倒譜參數數
SAVECOMPRESSED = F -不以壓縮模式保存輸出文件
SAVEWITHCRC = T-將校驗和加到輸出參數文件

CVN:Cepstral Variance Normalization(倒譜方差歸一化)
CMN:Cepstral Mean Normalization(倒譜均值歸一化)
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章