開集文本無關的說話人識別

文章目錄

開集文本無關的說話人識別

摘要

開集文本無關的說話人識別旨在利用語音技術來檢測某一語音是否來自系統中的已註冊人員，並確定是來自其中的哪一名說話人。該任務也可以稱之爲多目標說話人檢測。該任務需要解決兩個子問題：1）測試語音是否來自已註冊的說話人，2）如果是，那麼是其中的哪一個人。相應的解決方法包含兩個步驟：閉集鑑別與檢測。該文章總結了現階段該任務的 3 類方法和最新的相關數據集 MCE 2018。結果表明：1）隨着已註冊數量的增加，Top-1 性能下降的程度高於 Top-K 性能下降的程度；2）系統容易出現過擬合訓練集與驗證集的現象；3）基於 i-vector 的系統能夠通過嵌入增強/補償方法改善 40 % 左右的性能。

引言

在打擊犯罪過程的語音偵聽和電話欺詐行爲檢測的場景中，需要利用語音技術來檢測某一語音是否來自系統中的已註冊人員，並確定是來自其中的哪一名說話人。當語音內容不受約束時，該任務被稱之爲開集文本無關的說話人識別(Open-set Text-independent Speaker Identification, OSTI-SI)或者多目標說話人檢測(Multi-target Speaker Detection)。目前，這類問題還未開展大量的研究工作。

OSTI-SI 需要解決兩個子問題：1）測試語音是否來自已註冊的說話人，2）如果是，那麼是其中的哪一個人。第 1 個子問題可以視爲一個二分類問題，即測試語音是否來自系統已註冊的說話人，但是，優於已註冊的說話人來自不同的人員，彼此之間的語音是不會共享共同特徵的，這使得該二分類問題的決策邊界難以構建。第 2 個子問題可以視爲一種閉集的說話人鑑別，分類的類別數是系統已註冊的人員數，多分類問題在多類別（超過3000）的情況下難以實現較高的分類準確度，再加上測試語音與註冊語音之間存在不匹配的情況，例如背景噪聲、方言、說話人情緒和說話風格，這些差異會嚴重降低系統的識別率。

OSTI-SI 解決方法的流程如下圖所示：

閉集鑑別：預測語音與系統中所有的已註冊的說話人模型(特徵)之間進行得分計算，得分可以採用歐式距離、語言距離函數或者概率線性判別分析(Probabilistic Linear Discriminant Analysis, PLDA)。考慮到評測數據與訓練數據之間的不匹配，可使用得分補償技術調整各個說話人得分分佈，使其保持一致。
檢測：經過得分計算和得分補償之後的評分通過閾值對比來確定決策結果。考慮到多目標的檢測問題，決策結果可以分爲 Top-1 與 Top-K，其中 K 是註冊說話人的數量，Top-K 表示判斷前 K 個評分是否包含目標說話人身份。

OSTI-SI 評價指標包含 3 種：誤分類（或者 miss）、錯誤拒絕（或者 miss）和錯誤接受（或者 false alarm），其中誤分類和錯誤拒絕可以視爲 miss 錯誤。

誤分類：測試語音來自已註冊說話人，被分類爲不正確的說話人身份，即 $P_{miss}^1(\theta)=P(y^*>\theta,h^*\neq C_x|C_x\in\{C_1,\dots,C_K\})$ ；
錯誤拒絕：測試語音來自已註冊說話人，被分類爲未知說話人，即 $P_{miss}^2(\theta)=P(y^*<\theta|C_x\in\{C_1,\dots,C_K\})$ ；
錯誤接受：測試語音來自未知說話人，被分類爲已註冊說話人的身份，即 $P_{FA}(\theta)=P(y^*>\theta|C_x\notin\{C_1,\dots,C_K\})$ 。

其中， $\theta$ 表示判定是否來自已註冊說話人的閾值， $C_x$ 表示語音 $x$ 來自的說話人， $y^*$ 表示最大的評分， $h^*$ 表示期望的說話人， $K$ 表示已註冊說話人的數量。

方法

這裏主要描述三類方法：通用背景模型（UBM）系統、i-vector 系統和i-vector 神經網絡補償方法。

UBM 系統
- 模型：輸入 $\mapsto$ GMM-UBM $\mapsto$ 歐式距離
- 輸入： MFCC + $\Delta$ + $\Delta\Delta$ 是常見的輸入模式，採樣率一般是 8 kHz 或者 16 kHz，20 ms 幀長，10 ms 幀間距
- GMM-UBM：高斯混合模型的通用背景模型，高斯成分的個數一般是 2048 和 4096
- 歐式距離： $d(\mathbf{x_1}, \mathbf{x_2})=\|\mathbf{x_1}-\mathbf{x_2}\|_2=\sqrt{\sum_{i=1}^n(x_{1,i}-x_{2,i})^2}$
i-vector 系統
- 模型：輸入 $\mapsto$ GMM-UBM $\mapsto$ i-vector $\mapsto$ Cosine
- i-vector：通過無標籤語音訓練獲得，即無監督學習方法，一般的維度是 600、400 和 200
- Cosine：餘弦距離計算方法， $\cos(\mathbf{x_1}, \mathbf{x_2})=\frac{\mathbf{x_1}^T\mathbf{x_2}}{\|\mathbf{x_1}\|\cdot\|\mathbf{x_2}\|}$
i-vector 神經網絡補償
- 模型：輸入 $\mapsto$ GMM-UBM $\mapsto$ i-vector $\mapsto$ DNN $\mapsto$ PLDA
- DNN：神經網絡用作學習說話人變化和說話人嵌入，i-vector 之後的神經網絡通常採用淺層結構
- PLDA：PLDA $\mapsto$ M-Norm 得分計算，其中 M-Norm 計算方法如下：
  
  $y_i'=score_M(C_i,x)=\frac{score(C_i,x)-\mu_M(i)}{\sigma_M(i)}, i=1,2,\cdots,S$
  
  $\mu_M(i)=\frac{1}{\|I\|}\sum_{x\in\{C_1,\cdots,C_S\}}score(C_i,x)$
  
  $\sigma_M(i)=\sqrt{\frac{1}{\|I\|}\sum_{x\in\{C_1,\cdots,C_S\}}(score(C_i,x)-\mu_M(i))^2}$
  
  其中 $\|I\|$ 表示目標說話人羣的總語音數。

MCE 2018 數據

MCE 2018 數據集是多目標說話人檢測與識別挑戰評估使用的數據集，適用於描述開集文本無關的說話人識別。該數據包含 26,017 個說話人，其中 3,631 已註冊人數，共 18,155 條語音，22,386 未註冊人，共 48,338 條語音。該數據集被劃分爲 3 個不重疊的數據集，統計結果如表 1 所示。

**表1. MCE 2018 數據描述**
數據集	子集	說話人數量	每人的語音數	語音總數
訓練集	已註冊	3,631	3	10,893
訓練集	未註冊	5,000	>=4	30,952
驗證集	已註冊	3,631	1	3,631
驗證集	未註冊	5,000	1	5,000
測試集	已註冊	3,631	1	3,631
測試集	未註冊	12,386	1	12,386

訓練集：已註冊和未註冊的說話人都提供標籤。
驗證集：已註冊的說話人提供標籤，未註冊的說話人不提供標籤。
測試集：該數據集不可以以任何形式用於訓練和調試，說話人的標籤僅用於評估。

結果與討論

基於 MCE 2018 挑戰的評測結果，有以下結論：

隨着已註冊數量的增加，Top-1 性能下降的程度高於 Top-K 性能下降的程度。
系統容易出現過擬合訓練集與驗證集的現象。
未出現在訓練集的未註冊說話人會降低系統性能。
基於 i-vector 的系統能夠通過嵌入增強/補償方法改善 40 % 左右的性能。
該數據集下訓練的 x-vector 的性能低於 i-vector。

基於 MCE 2018 的結果，還有很多值得考慮：

使用免費的數據集來改善說話人嵌入，
語音的附屬信息可能改善系統性能，例如性別、信道、方言信息，
提供波形信號可以有利於高性能系統的開發，
語音也許包含一些私人信息，不適合公開，這一隱私問題需要進一步考慮。

開集文本無關的說話人識別

開集文本無關的說話人識別

文章目錄

摘要

引言

方法

MCE 2018 數據

結果與討論

相關文獻

X-Vector 數據增益方法

文本無關說話人確認的深度神經網絡嵌入

SincNet 原始波形的說話人識別

端到端的文本無關說話人確認的深度神經網絡嵌入

跨信道文本無關說話人識別的信道對抗訓練

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結