01. 特定人識別中的DTW算法簡單介紹

原創

ialwaysgo

2020-06-02 21:25

DTW（Dynamic Time Warping）是動態時間規整算法，在語音識別系統中通常用於特定人識別，特定人識別即A用戶使用這個語音識別系統，B用戶使用就會出現語音識別出錯或無法識別的現象。

DTW在語音識別系統中，是一個需要用戶事先訓練的系統。從操作方面上，首先需要訓練，對需要控制的命令錄製對應的語音；使用時只要說出與訓練時同樣的語音命令，即可出現識別結果，實現聲控。

比如，一些簡單的語音識別玩具，約10多個特定的命令詞。

DTW在語音識別系統中充當數據匹配比對模塊。語音識別系統首先採集用戶的語音，經過端點檢測，找出用戶的有效語音而把其他非語音段給刪除；然後經過MFCC特徵提取，得到用戶聲音的特徵，最後進入DTW，進行歐式距離的比對，距離最小對應的模板，即爲識別結果。

幾個名詞解釋：

MFCC--- 語音頻譜包絡抽取

歐式距離 --- 在二維和三維空間中的歐式距離的就是兩點之間的距離，二維的公式是d = sqrt((x1-x2)^+(y1-y2)^)
三維的公式是
d=sqrt(x1-x2)^+(y1-y2)^+z1-z2)^)
推廣到n維空間，歐式距離的公式是
d=sqrt( ∑(xi1-xi2)^ ) 這裏i=1,2..n
xi1表示第一個點的第i維座標,xi2表示第二個點的第i維座標

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

01. 特定人識別中的DTW算法簡單介紹

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（二）使用kube-vip實現集羣VIP訪問

企業大模型如何成爲自己數據的“百科全書”？

本地SSL證書過期輸入命令在IIS自動生成

.NET週刊【5月第2期 2024-05-12】

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（一）部署K8s

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（三）數據卷掛載NFS（網絡文件系統）

UC/OS -II 移植對比

項目組長出差不在的日子

01. 特定人識別中的DTW算法簡單介紹

MDK工具包中自帶的FLASH編程算法的問題

使用ARM標準C庫進行嵌入式應用程序開發---轉

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結