語音信號特徵提取<二>時域特徵(待續)
事實上,因爲語音信號的大多數處理都是在組幀之後進行的。組幀之後,幀序號就代表了時間先後。所以沒有多少特徵可以在時間域進行提取。常見的幾個時域特徵分別是:幅值、過零率以及直流偏置、能量以及線性預測編碼係數。
- 幅值(Amplitude)
- 過零率(ZCR)&過均值率率(MCR)
- 能量(Energy)
線性預測編碼係數(LPCC)
具體計算方法如下:- 幅值(Amplitude)
每一個聲道的語音序列都是以關於0對稱的,分佈在[-1,1]之間的浮點數。通常會關注一段語音幅值的最大、最小值的絕對值,平均值等等。 - 過零率(ZCR)&過均值率(MCR)
ZCR和MCR與語音信號的高頻內容關係比較密切。
ZCR,就是過零率(zero crossing rate)。它表示在單位時間內(通常是1s)語音幅值的符號變化次數。計算方式如下(僞代碼):
- 幅值(Amplitude)
for i=1:1:fs-1
if sign(x(i-1)*x(i))==1 & x(i)!=0
c=c+1;
else if x(i)==0 & sign(x(i-1)*x(i+1)==1
c=c+1;
end
ZCR=c;
其中,x(n)是語音序列,fs是採樣率,sign()是符號函數。c是單位時間內的富含變化次數,ZCR單位時間是過零率。
單位時間內的過平均值率(MCR)的計算方法和ZCR類似。只需要對原始序列x做一個處理,
事實上,語音序列的平均值已經很接近0了。ZCR或者MCR越大,則語音中的高頻內容越多。
3. 能量(Energy)
時域的能量計算是以幅值爲基礎的,給一段語音的幅值求去均方根,就可以簡單的作爲它的能量了。
而更加嚴格的能量計算需要進行傅里葉變換,然後對複平面中的幅值求均方根,這裏不詳述。
3. 線性預測編碼係數(LPCC)
待續