文本無關說話人確認的深度神經網絡嵌入

論文：Snyder D, Garcia-Romero D, Povey D, et al. Deep Neural Network Embeddings for Text-Independent Speaker Verification. 18th Annual Conference of the International Speech Communication Association[C]. 2017: 999–1003.

論文的作者提出了 X-Vector，，X-Vector 可以查看該博文。

文章目錄

文本無關說話人確認的深度神經網絡嵌入

摘要

在說話人無關的說話人確認系統中，可以通過神經網絡的時間池化層(Temporal Pooling Layer)來聚合說話人語音，以捕獲長期的的說話人特徵，從而實現長度變化的語音轉化爲固定維度的說話人嵌入。D. Snyder 提出了一種新的前端-後端說話人確認框架，其中前端模型採用深度神經網絡(Deep Neural Network, DNN)提取說話人嵌入，後端模型採用概率判別分析對註冊語音和測試語音進行評分計算。該方法在 NIST SRE 2010 英文語料與 2016 Cantonese 與 Tagalog 非英文語料上評測短時、語音不匹配的系統性能。結果表明：1）1）DNN 嵌入與 i-vector 相當，2）兩種向量的得分融合互補，3）DNN 嵌入在短時語音上更優，4）DNN 對語音不匹配更魯棒。

方法

論文中提及了兩種說話人確認的系統：i-vector 系統與 DNN 嵌入系統：

i-vector 系統
- 模型：輸入(60-d) $\mapsto$ UBM(2048-c) $\mapsto$ i-vector 提取器(600-d) $\mapsto$ PLDA
- 輸入：共 60 維度，幀長 25 ms 的均值歸一化 20 MFCC + $\Delta$ + $\Delta\Delta$ ，兩幀間距 10 ms，在此基礎上，基於能量的語音活動檢測（VAD）選擇對應語音幀，語音最長 3 s
- UBM(2048-c)：2048 分量全協方差高斯混合模型
- i-vector提取器：提取 600 維 i-vector，進而在進行中心化處理
- PLDA：LDA(150-d) $\mapsto$ L-norm $\mapsto$ PLDA $\mapsto$ 自適應 s-norm，LDA 用於降維處理，轉化爲 150 維度，再長度歸一化
DNN 嵌入系統
- 模型：輸入 $\mapsto$ TDNN(前端) $\mapsto$ PLDA(後段)
- 輸入：共 20 維度，幀長 25 ms 的均值歸一化 20 MFCC，兩幀間距 10 ms，在此基礎上，基於能量的語音活動檢測（VAD）選擇對應語音幀，語音最長 3 s
- TDNN：延時深度神經網絡(Time-delay DNN)，包含 5 層幀層次結構、統計池化層(Statistics Pooling Layer, 計算沿時間的均值與標準差，即 Temporal Pooling Layer 的一種實現)、2 層全鏈接(512 維度與 300 維度)，激活函數爲 ReLU，採用多分類損失函數，訓練採用了 2-10 s 的數據採樣，7 epochs，約 3400 樣本/人（4733人，共 16,000,000+樣本）
  - 嵌入 a：統計池化層的仿射變換
  - 嵌入 b：嵌入 a 經過激活函數之後的仿射變換
- PLDA：與 i-vector 系統的相同

數據集

數據都是電話語音，訓練數據來自有 Switchboard 與 SRE 系列組成，評測數據來自 SRE，其中訓練數據進行了篩選，具體地說，刪去少於 10 s 的記錄，刪去少於 4 條記錄的說話人，將原來 65,000 記錄 6,500 人的訓練數據減少爲 4,733 人。

訓練數據
- SWBD：Switchboard 2 Phases 1, 2, 3 與 Cellular
- SRE：NIST SRE04-08
評測數據
- SRE10：10s-10s conditon、core conditon 5 的全長註冊語音-{5, 10, 20, 60, 全長}s 測試語音
- SRE16：Tagalog 與 Cantonese 語音，2472 語音段，註冊時長 60s，測試時長 10-60s；該數據集還用於得分中心化

表1. 模型訓練的數據集
模型/語料	SWBD	SRE	SRE16
UBM與i-vector提取器	Yes	Yes
TDNN	Yes	Yes
PLDA		Yes	得分中心化

系統及其性能

本文評測了 3 種嵌入和 2 種融合的嵌入，其中後段模型採用相同的 PLDA：

ivector：i-vector 系統的說話人特徵
嵌入 a：DNN 嵌入的統計池化層的仿射變換
嵌入 b：DNN 千蕊的統計池化層的第二層仿射變換
嵌入融合(embeddings)：嵌入 a 與嵌入 b 在 PLDA 得分上的平均
ivector 與嵌入的融合(fusion)：ivector 與 embeddings 在 PLDA 得分上的平均

表2. 各種系統在SRE10與SRE16的等錯誤率(EER/%)
系統/語料	SRE10						SRE16
系統/語料	10s-10s	5s	10s	20s	60s	full	Cantonese	Tagalog
ivector	11.0	9.1	6.0	3.9	2.3	1.9	8.3	17.6
嵌入 a	11.0	9.5	5.7	3.9	3.0	2.6	7.7	17.6
嵌入 b	9.2	8.8	6.6	5.5	4.4	3.9	7.8	17.6
embeddings	7.9	7.6	5.0	3.8	2.9	2.6	6.5	16.3
fusion	8.1	6.8	4.3	2.9	2.1	1.8	6.3	15.4

根據結果可知：

i-vector 與 DNN 嵌入的得分結果是互補的
DNN 嵌入性能在短時測試語音（5s、10s、20s）上較優於 i-vector
DNN 嵌入對於語言不匹配相對魯棒

這些結果進一步暗示着：

判別學習方法使得 DNN 嵌入具有更好的表示能力
無監督學習，例如 i-vector，能夠在長時語音上學到更好的效果

參考文獻

[1] Snyder D, Garcia-Romero D, Povey D, et al. Deep Neural Network Embeddings for Text-Independent Speaker Verification. 18th Annual Conference of the International Speech Communication Association[C]. 2017: 999–1003.
[2] D. Snyder, D. Garcia-Romero, G. Sell, D. Povey and S. Khudanpur, "X-Vectors: Robust DNN Embeddings for Speaker Recognition," 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Calgary, AB, 2018, pp. 5329-5333.
[3] Peddinti V, Povey D, Khudanpur S. A time delay neural network architecture for efficient modeling of long temporal contexts. Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH[C]. International Speech and Communication Association, 2015, 2015-Janua: 3214–3218.

作者信息：

CSDN：https://blog.csdn.net/i_love_home?viewmode=contents

Github：https://github.com/mechanicalsea

2019級同濟大學博士研究生王瑞 [email protected]

研究方向：說話人識別、說話人分離

文本無關說話人確認的深度神經網絡嵌入

文本無關說話人確認的深度神經網絡嵌入

文章目錄

摘要

方法

數據集

系統及其性能

參考文獻

X-Vector 數據增益方法

文本無關說話人確認的深度神經網絡嵌入

SincNet 原始波形的說話人識別

端到端的文本無關說話人確認的深度神經網絡嵌入

跨信道文本無關說話人識別的信道對抗訓練

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結