聲紋識別的語言依賴前端分析

Analysis of Language Dependent Front-End for Speaker Recognition

聲紋識別的語言依賴前端分析

摘要

在基於深度神經網絡(DNN)i-vector的說話人識別系統中,訓練用於自動語音識別的聲學模型。基於DNN的聲學模型通常使用像英語這樣資源充足的語言進行訓練。在登記和測試數據不是英語的評估條件下,如在NIST SRE 2016數據集中,DNN聲學模型推廣得很差。在搜索條件,基於傳統的通用背景模型/高斯混合模型(UBM / GMM)我向量提取的性能比基於DNN的i-vector系統更好。在本文中,我們要解決,其中一個可以開發一個自動語音場景識別器具有用於評估條件中存在的語言的有限資源,因此能夠使用DNN聲學模型而不是UBM / GMM。假設開放訓練條件,在NIST SRE 2016數據集的Tagalog子集上進行實驗。使用經過Tagalog訓練的DNN i-vector系統,通過訓練英語的基線系統獲得12.1%的相對改善。

索引術語:i-vector,說話人識別,深度神經網絡

1簡介

最先進的說話人識別系統使用i-vector概率線性判別分析(PLDA)框架[1]。常規的實現使用通用背景模型/高斯混合模型(UBM / GMM)來計算,以估計說話者模型充分統計量,即稱爲身份矢量(i-vector)。該框架的成功擴展取代了UBM / GMM,其中基於深度神經網絡(DNN)的聲學模型(AM)訓練用於自動語音識別(ASR)[2,3,4,5,6]。這種擴展下存在兩種常用技術。在第一種技術DNN i-vector中,AM具有聲學上明確定義的目標(通常是senone),它們取代了UBM / GMM的組件。在i-vector系統中使用DNN的另一種常見技術中,堆疊瓶頸網絡(SBN)被訓練用於聲學造型。從SBN獲得瓶頸特徵(BNF),然後將其與傳統的短期聲學特徵(例如梅爾頻率濾波器組係數(MFCC)[7])相結合。

在兩種上述技術的標記語料庫需要訓練ASR系統。爲了開發爲基準數據集系統確實含有僅在英國,:講話如NIST SRE 2010和2012,Fisher和總機數據集可利用[2 ,8,9]。這些數據集包含數千小時的轉錄語音數據。在匹配的語言條件下,DNN i-vector執行明顯比在UBM / GMM的i-vector系統更好然而,在數據集:如NIST SRE 2016的數據集沒有包含在評價條件,一個DNN的i-vector系統中的兩個看不見語言使用AM培訓的英語語言表現比UBM / GMM i-vector系統差[10,11]。這表明UBM / GMM比DNN i-vector更好地概括。 DNN i-vector性能的降低可歸因於語音,聲學和持續時間不匹配。在[12]中,使用BABEL程序中的14種語言訓練多語言瓶頸(MLB)系統。這14種語言中都沒有兩種評估語言,塔加路語(TGL)和廣東話(YUE)。再一次,結果並不比GMM i-vector系統好。

在本文中,我們研究了由語言依賴的DNN引起的語音錯配對i-vector建模提取海報的影響。特別是,我們的情況是,人們可以訪問數據來訓練低資源ASR系統。我們假設用目標語言訓練的DNN i-vector系統改善了DNN i-vector系統的性能。該分析通過與文本無關的說話者驗證進行在NIST SRE 2016數據集的TGL子集上進行實驗。 Tagalog BABEL語料庫用於訓練DNN AM。我們注意到在[13]中考慮了類似的假設。但是,使用語言相關係統時未顯示出一致的改進。我們工作中的兩個重要區別是:(1)使用數據集可變性補償和(2)使用未標記數據調整後端。

已經進行了多次嘗試來改進使用DNN的識別系統。特別是,[14]中提出的揚聲器嵌入值得一提

針對相同的評估方案(NIST SRE 2016)。正在生成大量數據來訓練網絡以進行說話者識別。然而,DNN i-vector系統提供了在語音記錄中利用內容信息的潛力。因此,我們的理解可以擴展到文本相關的說話人驗證,其中DNNi-vector已被證明是有用的[5]。

本文的其餘部分安排如下:第2部分介紹了說話人識別的i-vector框架。接下來是第3節中對DNN i-vector系統及其對TGL的適應性的描述。在第4節中,給出了NIST SRE 2016和2010數據集的實驗結果。

是分配給集羣c的特徵向量的有效數量。 i-向量估計方程(方程3)是假定高斯分佈的w的最大後驗估計。

在[2]中,顯示DNN訓練的ASR可以代替傳統的UBM / GMM以獲得i-vector估計所需的γ。 在DNN正向通過過程的輸出處獲得的後驗用於計算Nc和f。 該技術導致了UBM組件。 具有明確定義的聲學類別的UBM組件的未經深度訓練可對驗證性能產生重大影響。

3.語言依賴DNN

如第1節所述,當DNN的語言與評估中的語言不匹配時,DNN i-vector系統的性能會下降。我們在NIST 2016 SRE上展示它。表1比較了NIST SRE 2016評估集的女性子集上的UBM / GMM和DNN / i-向量系統。該UBM / GMM我載體進行訓練費舍爾英語第一和第二部分,總機細胞部分和第二部分,2004年NIST SRE,2005年,2006年和2008年的UBM,LDA和PLDA都受過訓練相同的數據。 PLDA採用NIST SRE 2016數據中未標記的開發數據進行調整。第4節給出了特徵和語音活動檢測的詳細信息.DNN i-vector系統接受了Fisher English第一部分和第二部分的培訓,並有1520個目標(senones)。

表1中列出的女性發言者評估集的結果表明,性能下降,與匹配語言條件下觀察到的結果相反。 UBM / GMM系統比TGL子集上的DNN i-vector好7.6%,YUE子集上好24.3%。

在本文中,我們通過假設我們可以訪問有限數量的語言標記數據來專注於改進TGL子系統。 Babel Tagalog數據集包含大約84小時的轉錄會話語音(不包括沉默),因此資源不如英語。在84小時的演講中,大約48小時來自女性發言者。基於DNN的聲學模型與這種有限數量的數據一起使用。爲了理解使用語言相關DNN的優點,使用此DNN訓練的ENG-DNN(即使用Fisher English訓練的DNN)訓練TGL(TGL-DNN)。用於訓練後端的數據保持不變。

4.1特徵提取

前端使用20個具有增量和加速度參數的MFCC功能,使用30 ms的窗口每10 ms提取一次(如[7,8]等系統所使用)。高斯化模塊([16]),具有300幀的上下文。使用基於DNN的語音檢測器,其將每幀音頻分類爲語音或非語音。然後在300毫秒內對幀級決策進行平滑處理。本文介紹的所有系統都使用相同的功能配置。

 

4.2.i-vector基線

使用下面的數據集,其中訓練UBM / GMM我矢量基準:NIST的數據集 - 2004年SRE,2005年,2006年,2008年和2008年擴大,總機第二部分和第三部分,並且總機細胞部分和第二一個GMM與第二千零四十八組件經過培訓。i-vector維數爲500.僅使用NIST數據集訓練LDA和PLDA。 LDA和PLDA的設置對於本文中介紹的所有系統都是一致的。在LDA之後,i-vector的維數減少到350。

對於DNN i-vector系統,Fisher English Parts I和II用於訓練具有1'520輸出狀態的DNN。我們將此係統稱爲ENG-DNN。我們使用具有6個隱藏層和最終softmax層的標準DNN架構。每個隱藏層具有1'024個具有S形激活功能的單元。雖然ASR系統通常只使用13個帶有ASR和i-vector系統的MFCC。隨着係數的增加,ASR系統的字錯誤率(WER)下降了2%絕對值(從40%降至42%)。

爲了利用未標記的域依賴數據作爲評估集,PLDA適用於使用Kaldi [17]的無監督方式。無監督自適應更新PLDA的協方差估計,從而產生依賴於域的後端。

所有的i-vector系統都在[18]([19,20]之後)的實施中進行了訓練。來自SRE2016的i-vector在評估之前被強制爲零中心以抵消數據集不匹配。這是SRE2016中未標記的開發數據的摘要。該數據將被稱爲SRE16U。

 

4.3.Tagalog ASR系統

BABEL Tagalog語言包包含大約80小時的會話語音,用於在Tagalog的ASR系統中進行訓練。該訓練集將被稱爲BTGL。而不是從頭開始訓練ASR系統,使用Fisher數據集訓練的ENG-DNN適用於TGL。使用minibatch Stochastic Gradient Descent重新訓練最後的線性層,然後是softmax層。最初,通過使用三音素訓練HMM / GMM系統來引導目標。 DNN在開發裝置上具有1'530輸出單元,WER爲53%。基於該聲學模型的DNN / i-vector系統被稱爲TGL-DNN。前面提到的基於MFCC的功能。雖然更常見的TGL ASR設置使用感知線性預測(PLP)而不是MFCC,但開發設置中WER的差異僅爲3%(從50%到53%)。因此,使用基於MFCC的TGL DNN。

由於BTGL中的數據量與Fisher English語料庫相比受到顯着限制,因此對於具有與BTGL相同數據量的ASR系統也進行了英語訓練。幸運的是,該系統希望簽署ENG40-DNN,表示僅使用了40小時的語音數據(緊密匹配TGL中永久發言者的48小時數據)。這有助於我們觀察DNN的訓練數據量(以及識別器的準確性)的影響。

作爲擴展,我們比較SRE2010數據集上三個DNN的結果,該數據集僅包含一種語言的語音(英語)。我們證明了TGL的結果也是英語的共識。

 

 

4.4 2016年SRE的結果

在表2中,將結果與使用TGL-DNN和ENG40-DNN的DNN i-vector系統進行比較。使用TGL-DNN清楚地顯示了電子演講者的驗證性能。通過TGL DNN更換ENG DNN和從7.15%培養的i-vector提取(T)與僅BTGL數據導致減少EER的至8.13%EER得到的12.1%的相對改善。因此,使用語言相關的DNN肯定會帶來好處。請注意,只有後端(LDA和PLDA)使用NIST數據進行了訓練。結果表明,前端的語音變異性比後端更好。使用SRE16U進行PLDA調整不會進一步提高性能。因此,TGL-DNN相對於UBM / GMM i-vector基線改善≈8%。

 

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章