DTW(Dynamic Time Warping)是動態時間規整算法,在語音識別系統中通常用於特定人識別,特定人識別即A用戶使用這個語音識別系統,B用戶使用就會出現語音識別出錯或無法識別的現象。
DTW在語音識別系統中,是一個需要用戶事先訓練的系統。從操作方面上,首先需要訓練,對需要控制的命令錄製對應的語音;使用時只要說出與訓練時同樣的語音命令,即可出現識別結果,實現聲控。
比如,一些簡單的語音識別玩具,約10多個特定的命令詞。
DTW在語音識別系統中充當數據匹配比對模塊。語音識別系統首先採集用戶的語音,經過端點檢測,找出用戶的有效語音而把其他非語音段給刪除;然後經過MFCC特徵提取,得到用戶聲音的特徵,最後進入DTW,進行歐式距離的比對,距離最小對應的模板,即爲識別結果。
幾個名詞解釋:
MFCC--- 語音頻譜包絡抽取
歐式距離 --- 在二維和三維空間中的歐式距離的就是兩點之間的距離,二維的公式是d = sqrt((x1-x2)^+(y1-y2)^)
三維的公式是
d=sqrt(x1-x2)^+(y1-y2)^+z1-z2)^)
推廣到n維空間,歐式距離的公式是
d=sqrt( ∑(xi1-xi2)^ ) 這裏i=1,2..n
xi1表示第一個點的第i維座標,xi2表示第二個點的第i維座標