語音信號特徵提取時域特徵(待續)

語音信號特徵提取<二>時域特徵(待續)

事實上,因爲語音信號的大多數處理都是在組幀之後進行的。組幀之後,幀序號就代表了時間先後。所以沒有多少特徵可以在時間域進行提取。常見的幾個時域特徵分別是:幅值、過零率以及直流偏置、能量以及線性預測編碼係數。
  • 幅值(Amplitude)
  • 過零率(ZCR)&過均值率率(MCR)
  • 能量(Energy)
  • 線性預測編碼係數(LPCC)
    具體計算方法如下:

    1. 幅值(Amplitude)
      每一個聲道的語音序列都是以關於0對稱的,分佈在[-1,1]之間的浮點數。通常會關注一段語音幅值的最大、最小值的絕對值,平均值等等。
    2. 過零率(ZCR)&過均值率(MCR)
      ZCR和MCR與語音信號的高頻內容關係比較密切。
      ZCR,就是過零率(zero crossing rate)。它表示在單位時間內(通常是1s)語音幅值的符號變化次數。計算方式如下(僞代碼):
for i=1:1:fs-1

    if sign(x(i-1)*x(i))==1 & x(i)!=0
        c=c+1;
    else if x(i)==0 & sign(x(i-1)*x(i+1)==1
        c=c+1;
end
ZCR=c;
其中,x(n)是語音序列,fs是採樣率,sign()是符號函數。c是單位時間內的富含變化次數,ZCR單位時間是過零率。
單位時間內的過平均值率(MCR)的計算方法和ZCR類似。只需要對原始序列x做一個處理,

x=xx¯
事實上,語音序列的平均值已經很接近0了。ZCR或者MCR越大,則語音中的高頻內容越多。
3. 能量(Energy)
時域的能量計算是以幅值爲基礎的,給一段語音的幅值求去均方根,就可以簡單的作爲它的能量了。
energy=1Nx(n)2
而更加嚴格的能量計算需要進行傅里葉變換,然後對複平面中的幅值求均方根,這裏不詳述。
3. 線性預測編碼係數(LPCC)
待續

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章