文本無關說話人確認的深度神經網絡嵌入

文本無關說話人確認的深度神經網絡嵌入

論文:Snyder D, Garcia-Romero D, Povey D, et al. Deep Neural Network Embeddings for Text-Independent Speaker Verification. 18th Annual Conference of the International Speech Communication Association[C]. 2017: 999–1003.

論文的作者提出了 X-Vector,,X-Vector 可以查看該博文

摘要

在說話人無關的說話人確認系統中,可以通過神經網絡的時間池化層(Temporal Pooling Layer)來聚合說話人語音,以捕獲長期的的說話人特徵,從而實現長度變化的語音轉化爲固定維度的說話人嵌入。D. Snyder 提出了一種新的前端-後端說話人確認框架,其中前端模型採用深度神經網絡(Deep Neural Network, DNN)提取說話人嵌入,後端模型採用概率判別分析對註冊語音和測試語音進行評分計算。該方法在 NIST SRE 2010 英文語料與 2016 Cantonese 與 Tagalog 非英文語料上評測短時、語音不匹配的系統性能。結果表明:1)1)DNN 嵌入與 i-vector 相當,2)兩種向量的得分融合互補,3)DNN 嵌入在短時語音上更優,4)DNN 對語音不匹配更魯棒。

方法

論文中提及了兩種說話人確認的系統:i-vector 系統與 DNN 嵌入系統:

  1. i-vector 系統
    • 模型:輸入(60-d) \mapsto UBM(2048-c) \mapsto i-vector 提取器(600-d) \mapsto PLDA
    • 輸入:共 60 維度,幀長 25 ms 的均值歸一化 20 MFCC + Δ\Delta + ΔΔ\Delta\Delta,兩幀間距 10 ms,在此基礎上,基於能量的語音活動檢測(VAD)選擇對應語音幀,語音最長 3 s
    • UBM(2048-c):2048 分量全協方差高斯混合模型
    • i-vector提取器:提取 600 維 i-vector,進而在進行中心化處理
    • PLDA:LDA(150-d) \mapsto L-norm \mapsto PLDA \mapsto 自適應 s-norm,LDA 用於降維處理,轉化爲 150 維度,再長度歸一化
  2. DNN 嵌入系統
    • 模型:輸入 \mapsto TDNN(前端) \mapsto PLDA(後段)
    • 輸入:共 20 維度,幀長 25 ms 的均值歸一化 20 MFCC,兩幀間距 10 ms,在此基礎上,基於能量的語音活動檢測(VAD)選擇對應語音幀,語音最長 3 s
    • TDNN延時深度神經網絡(Time-delay DNN),包含 5 層幀層次結構、統計池化層(Statistics Pooling Layer, 計算沿時間的均值與標準差,即 Temporal Pooling Layer 的一種實現)、2 層全鏈接(512 維度與 300 維度),激活函數爲 ReLU,採用多分類損失函數,訓練採用了 2-10 s 的數據採樣,7 epochs,約 3400 樣本/人(4733人,共 16,000,000+樣本)
      • 嵌入 a:統計池化層的仿射變換
      • 嵌入 b:嵌入 a 經過激活函數之後的仿射變換
    • PLDA:與 i-vector 系統的相同

數據集

數據都是電話語音,訓練數據來自有 Switchboard 與 SRE 系列組成,評測數據來自 SRE,其中訓練數據進行了篩選,具體地說,刪去少於 10 s 的記錄,刪去少於 4 條記錄的說話人,將原來 65,000 記錄 6,500 人的訓練數據減少爲 4,733 人。

  1. 訓練數據
    • SWBD:Switchboard 2 Phases 1, 2, 3 與 Cellular
    • SRE:NIST SRE04-08
  2. 評測數據
    • SRE10:10s-10s conditon、core conditon 5 的全長註冊語音-{5, 10, 20, 60, 全長}s 測試語音
    • SRE16:Tagalog 與 Cantonese 語音,2472 語音段,註冊時長 60s,測試時長 10-60s;該數據集還用於得分中心化
表1. 模型訓練的數據集
模型/語料SWBDSRESRE16
UBM與i-vector提取器YesYes
TDNNYesYes
PLDA Yes得分中心化

系統及其性能

本文評測了 3 種嵌入和 2 種融合的嵌入,其中後段模型採用相同的 PLDA:

  1. ivector:i-vector 系統的說話人特徵
  2. 嵌入 a:DNN 嵌入的統計池化層的仿射變換
  3. 嵌入 b:DNN 千蕊的統計池化層的第二層仿射變換
  4. 嵌入融合(embeddings):嵌入 a 與嵌入 b 在 PLDA 得分上的平均
  5. ivector 與嵌入的融合(fusion):ivector 與 embeddings 在 PLDA 得分上的平均
表2. 各種系統在SRE10與SRE16的等錯誤率(EER/%)
系統/語料SRE10SRE16
10s-10s5s10s20s60sfullCantoneseTagalog
ivector11.09.16.03.92.31.98.317.6
嵌入 a11.09.55.73.93.02.67.717.6
嵌入 b9.28.86.65.54.43.97.817.6
embeddings7.97.65.03.82.92.66.516.3
fusion8.16.84.32.92.11.86.315.4

根據結果可知:

  1. i-vector 與 DNN 嵌入的得分結果是互補的
  2. DNN 嵌入性能在短時測試語音(5s、10s、20s)上較優於 i-vector
  3. DNN 嵌入對於語言不匹配相對魯棒

這些結果進一步暗示着:

  1. 判別學習方法使得 DNN 嵌入具有更好的表示能力
  2. 無監督學習,例如 i-vector,能夠在長時語音上學到更好的效果

參考文獻

[1] Snyder D, Garcia-Romero D, Povey D, et al. Deep Neural Network Embeddings for Text-Independent Speaker Verification. 18th Annual Conference of the International Speech Communication Association[C]. 2017: 999–1003.
[2] D. Snyder, D. Garcia-Romero, G. Sell, D. Povey and S. Khudanpur, "X-Vectors: Robust DNN Embeddings for Speaker Recognition," 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Calgary, AB, 2018, pp. 5329-5333.
[3] Peddinti V, Povey D, Khudanpur S. A time delay neural network architecture for efficient modeling of long temporal contexts. Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH[C]. International Speech and Communication Association, 2015, 2015-Janua: 3214–3218.


作者信息:

CSDN:https://blog.csdn.net/i_love_home?viewmode=contents

Github:https://github.com/mechanicalsea

2019級同濟大學博士研究生 王瑞 [email protected]

研究方向:說話人識別、說話人分離

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章