文本無關說話人確認的深度神經網絡嵌入
摘要
在說話人無關的說話人確認系統中,可以通過神經網絡的時間池化層(Temporal Pooling Layer)來聚合說話人語音,以捕獲長期的的說話人特徵,從而實現長度變化的語音轉化爲固定維度的說話人嵌入。D. Snyder 提出了一種新的前端-後端說話人確認框架,其中前端模型採用深度神經網絡(Deep Neural Network, DNN)提取說話人嵌入,後端模型採用概率判別分析對註冊語音和測試語音進行評分計算。該方法在 NIST SRE 2010 英文語料與 2016 Cantonese 與 Tagalog 非英文語料上評測短時、語音不匹配的系統性能。結果表明:1)1)DNN 嵌入與 i-vector 相當,2)兩種向量的得分融合互補,3)DNN 嵌入在短時語音上更優,4)DNN 對語音不匹配更魯棒。
方法
論文中提及了兩種說話人確認的系統:i-vector 系統與 DNN 嵌入系統:
- i-vector 系統
- 模型:輸入(60-d) UBM(2048-c) i-vector 提取器(600-d) PLDA
- 輸入:共 60 維度,幀長 25 ms 的均值歸一化 20 MFCC + + ,兩幀間距 10 ms,在此基礎上,基於能量的語音活動檢測(VAD)選擇對應語音幀,語音最長 3 s
- UBM(2048-c):2048 分量全協方差高斯混合模型
- i-vector提取器:提取 600 維 i-vector,進而在進行中心化處理
- PLDA:LDA(150-d) L-norm PLDA 自適應 s-norm,LDA 用於降維處理,轉化爲 150 維度,再長度歸一化
- DNN 嵌入系統
- 模型:輸入 TDNN(前端) PLDA(後段)
- 輸入:共 20 維度,幀長 25 ms 的均值歸一化 20 MFCC,兩幀間距 10 ms,在此基礎上,基於能量的語音活動檢測(VAD)選擇對應語音幀,語音最長 3 s
- TDNN:延時深度神經網絡(Time-delay DNN),包含 5 層幀層次結構、統計池化層(Statistics Pooling Layer, 計算沿時間的均值與標準差,即 Temporal Pooling Layer 的一種實現)、2 層全鏈接(512 維度與 300 維度),激活函數爲 ReLU,採用多分類損失函數,訓練採用了 2-10 s 的數據採樣,7 epochs,約 3400 樣本/人(4733人,共 16,000,000+樣本)
- 嵌入 a:統計池化層的仿射變換
- 嵌入 b:嵌入 a 經過激活函數之後的仿射變換
- PLDA:與 i-vector 系統的相同
數據集
數據都是電話語音,訓練數據來自有 Switchboard 與 SRE 系列組成,評測數據來自 SRE,其中訓練數據進行了篩選,具體地說,刪去少於 10 s 的記錄,刪去少於 4 條記錄的說話人,將原來 65,000 記錄 6,500 人的訓練數據減少爲 4,733 人。
- 訓練數據
- SWBD:Switchboard 2 Phases 1, 2, 3 與 Cellular
- SRE:NIST SRE04-08
- 評測數據
- SRE10:10s-10s conditon、core conditon 5 的全長註冊語音-{5, 10, 20, 60, 全長}s 測試語音
- SRE16:Tagalog 與 Cantonese 語音,2472 語音段,註冊時長 60s,測試時長 10-60s;該數據集還用於得分中心化
模型/語料 | SWBD | SRE | SRE16 |
---|---|---|---|
UBM與i-vector提取器 | Yes | Yes | |
TDNN | Yes | Yes | |
PLDA | Yes | 得分中心化 |
系統及其性能
本文評測了 3 種嵌入和 2 種融合的嵌入,其中後段模型採用相同的 PLDA:
- ivector:i-vector 系統的說話人特徵
- 嵌入 a:DNN 嵌入的統計池化層的仿射變換
- 嵌入 b:DNN 千蕊的統計池化層的第二層仿射變換
- 嵌入融合(embeddings):嵌入 a 與嵌入 b 在 PLDA 得分上的平均
- ivector 與嵌入的融合(fusion):ivector 與 embeddings 在 PLDA 得分上的平均
系統/語料 | SRE10 | SRE16 | ||||||
---|---|---|---|---|---|---|---|---|
10s-10s | 5s | 10s | 20s | 60s | full | Cantonese | Tagalog | |
ivector | 11.0 | 9.1 | 6.0 | 3.9 | 2.3 | 1.9 | 8.3 | 17.6 |
嵌入 a | 11.0 | 9.5 | 5.7 | 3.9 | 3.0 | 2.6 | 7.7 | 17.6 |
嵌入 b | 9.2 | 8.8 | 6.6 | 5.5 | 4.4 | 3.9 | 7.8 | 17.6 |
embeddings | 7.9 | 7.6 | 5.0 | 3.8 | 2.9 | 2.6 | 6.5 | 16.3 |
fusion | 8.1 | 6.8 | 4.3 | 2.9 | 2.1 | 1.8 | 6.3 | 15.4 |
根據結果可知:
- i-vector 與 DNN 嵌入的得分結果是互補的
- DNN 嵌入性能在短時測試語音(5s、10s、20s)上較優於 i-vector
- DNN 嵌入對於語言不匹配相對魯棒
這些結果進一步暗示着:
- 判別學習方法使得 DNN 嵌入具有更好的表示能力
- 無監督學習,例如 i-vector,能夠在長時語音上學到更好的效果
參考文獻
[1] Snyder D, Garcia-Romero D, Povey D, et al. Deep Neural Network Embeddings for Text-Independent Speaker Verification. 18th Annual Conference of the International Speech Communication Association[C]. 2017: 999–1003.
[2] D. Snyder, D. Garcia-Romero, G. Sell, D. Povey and S. Khudanpur, "X-Vectors: Robust DNN Embeddings for Speaker Recognition," 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Calgary, AB, 2018, pp. 5329-5333.
[3] Peddinti V, Povey D, Khudanpur S. A time delay neural network architecture for efficient modeling of long temporal contexts. Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH[C]. International Speech and Communication Association, 2015, 2015-Janua: 3214–3218.
作者信息:
CSDN:https://blog.csdn.net/i_love_home?viewmode=contents
Github:https://github.com/mechanicalsea
2019級同濟大學博士研究生 王瑞 [email protected]
研究方向:說話人識別、說話人分離