01. 特定人識別中的DTW算法簡單介紹

DTW(Dynamic   Time   Warping)是動態時間規整算法,在語音識別系統中通常用於特定人識別,特定人識別即A用戶使用這個語音識別系統,B用戶使用就會出現語音識別出錯或無法識別的現象。

 

DTW在語音識別系統中,是一個需要用戶事先訓練的系統。從操作方面上,首先需要訓練,對需要控制的命令錄製對應的語音;使用時只要說出與訓練時同樣的語音命令,即可出現識別結果,實現聲控。

 

比如,一些簡單的語音識別玩具,約10多個特定的命令詞。



DTW在語音識別系統中充當據匹配比對模塊。語音識別系統首先採集用戶的語音,經過端點檢測,找出用戶的有效語音而把其他非語音段給刪除;然後經過MFCC特徵提取,得到用戶聲音的特徵,最後進入DTW,進行歐式距離的比對,距離最小對應的模板,即爲識別結果。

 

幾個名詞解釋:

MFCC--- 語音頻譜包絡抽取

歐式距離 --- 在二維和三維空間中的歐式距離的就是兩點之間的距離,二維的公式是d   =   sqrt((x1-x2)^+(y1-y2)^)
三維的公式是
d=sqrt(x1-x2)^+(y1-y2)^+z1-z2)^)
推廣到n維空間,歐式距離的公式是
d=sqrt(   ∑(xi1-xi2)^   )   這裏i=1,2..n
xi1表示第一個點的第i維座標,xi2表示第二個點的第i維座標

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章