語音信號特徵提取<二>時域特徵(待續)

事實上，因爲語音信號的大多數處理都是在組幀之後進行的。組幀之後，幀序號就代表了時間先後。所以沒有多少特徵可以在時間域進行提取。常見的幾個時域特徵分別是：幅值、過零率以及直流偏置、能量以及線性預測編碼係數。

幅值(Amplitude)
過零率(ZCR)&過均值率率(MCR)
能量(Energy)
線性預測編碼係數(LPCC)
具體計算方法如下：
1. 幅值(Amplitude)
  每一個聲道的語音序列都是以關於0對稱的，分佈在[-1,1]之間的浮點數。通常會關注一段語音幅值的最大、最小值的絕對值，平均值等等。
2. 過零率(ZCR)&過均值率(MCR)
  ZCR和MCR與語音信號的高頻內容關係比較密切。
  ZCR，就是過零率(zero crossing rate)。它表示在單位時間內(通常是1s)語音幅值的符號變化次數。計算方式如下（僞代碼）：

for i=1:1:fs-1

    if sign(x(i-1)*x(i))==1 & x(i)!=0
        c=c+1;
    else if x(i)==0 & sign(x(i-1)*x(i+1)==1
        c=c+1;
end
ZCR=c;

其中，x(n)是語音序列，fs是採樣率，sign()是符號函數。c是單位時間內的富含變化次數，ZCR單位時間是過零率。
單位時間內的過平均值率(MCR)的計算方法和ZCR類似。只需要對原始序列x做一個處理，

x=x−x¯ 。
事實上，語音序列的平均值已經很接近0了。ZCR或者MCR越大，則語音中的高頻內容越多。
3. 能量(Energy)
時域的能量計算是以幅值爲基礎的，給一段語音的幅值求去均方根，就可以簡單的作爲它的能量了。
energy=1N⋅∑x(n)2
而更加嚴格的能量計算需要進行傅里葉變換，然後對複平面中的幅值求均方根，這裏不詳述。
3. 線性預測編碼係數(LPCC)
待續

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

語音信號特徵提取時域特徵(待續)

語音信號特徵提取<二>時域特徵(待續)

公司剛入職了一名 Java 中級開發，短短 4 行代碼居然湊齊了 3 個 bug！我哭了~~

公衆號5月C#/.NET熱文一覽

git 下載大陸鏡像地址

語音信號特徵提取預處理

語音信號特徵提取時域特徵(待續)

語音識別:理論與實踐

基於TensorFlow的音頻分析

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結