PLDA對說話人身份與多重滋擾條件聯合建模的推廣

A Generalization of PLDA for Joint Modeling of Speaker Identity and Multiple Nuisance Conditions

 

PLDA對說話人身份與多重滋擾條件聯合建模的推廣

uciana Ferrer1,Mitchell McLaren2

1Incituto de Investigacio'n en Ciencias de la Computacio'n,CONICET-Universidad de Buenid Aires,Buenos Aires,Argentina

2Speech技術研究實驗室,SRI國際,美國門洛帕克

[email protected],mitchell.mclaren @ sri.com

摘要

概率線性判別分析(PLDA)是計算說話人識別系統中得分的主要方法。該方法將表示每個音頻樣本的向量建模爲三個項的總和:一個取決於說話者身份,一個用於模擬說話者內部的變異性另一個用於模擬任何剩餘的變異性。假設最後兩個術語在樣本之間是獨立的。我們最近提出了PLDA方法的擴展,我們將其稱爲聯合PLDA(JPLDA),其中第二項被認爲取決於數據中存在的有害條件的類型(例如,語言或渠道)。當將語言作爲滋擾條件時,所提出的方法爲多語言說話人識別帶來了顯着的收益。在本文中,我們提出了這種方法的概括,允許多個討厭的術語。我們使用語言和描述樣本聲學特徵的幾個討厭條件來顯示結果,並證明在模型中共同包括所有這些因素導致比僅包括語言或聲學條件因素更好的結果。總體而言,對於標準PLDA方法,我們在各種系統和測試條件下獲得了5%至47%的檢測成本函數的相對改進。

索引術語:說話人識別,概率線性判別分析

1.簡介

PLDA [1]是說話人識別的主要評分技術[2,3,4,5,6]。它假設每個樣本由固定維度的特徵向量表示,並且該向量可以被建模爲三個項的總和:一個取決於樣本類的術語,一個用於模擬類內變異性的術語,並假設它是獨立的樣本,以及模擬任何剩餘變異性的最終術語,並且在樣本之間也是獨立的。這些假設意味着來自同一類別的所有樣本彼此獨立,並且一旦知道了類別,也與其他類別的樣本無關。對於許多訓練數據集而言,這種假設是不正確的,其中樣本來自一小組不同的條件,如麥克風,語言或語音風格。在這些情況下,對應於相同條件的樣本很可能是統計依賴的。

在最近的出版物[7]中,我們提出了PLDA的擴展,其中模擬類內變異性的術語被認爲取決於描述樣本的有害條件的標籤。我們在[8]中表明,當使用語言作爲討厭條件時,這種方法在多語言說話人識別方面獲得了巨大的收益。在這項工作中,我們擴展了所提出的方法,以允許多個有害的術語對應於不同的條件,這些條件被假定爲獨立地和附加地影響代表樣本的向量。我們提出了一種用於模型訓練的啓發式算法,該算法易於實現,有效且計算速度快,以及不需要在測試期間瞭解有害條件的評分程序。

文獻提出了一些方法,以一種使其參數依賴於條件標籤的方式推廣PLDA。該家族最簡單的方法是針對每種情況訓練單獨的PLDA模型,如[9]所提出的。儘管如此,在本文中,作者表明,彙集來自所有條件的數據,如[10]所提出的,導致比訓練單獨模型更好的性能。在由[11]提出的並列PLDA模型中,針對每個條件訓練一個PLDA模型,但是通過強制對應於每個類的潛變量在所有條件下相同來綁定這些模型。當在人臉識別任務中在所考慮的條件(正面和輪廓)下觀察訓練數據中的每個類別時,該方法表現出優於標準PLDA的彙總訓練數據。 [12]提出了類似的方法;但在這種情況下,混合成分在訓練期間不會給出,而是取決於連續的元數據值。該方法通過在不同的信噪比(SNR)水平上向訓練數據添加噪聲來測試,與彙集所有數據以訓練單個PLDA模型相比,產生增益。然而,當訓練數據中的每個發言者僅在一小部分感興趣的條件下(可能只有一個)或某些條件的訓練數據少於其他人時,PLDA方法並不能很好地發揮作用[ 8],這兩種都是常見的訓練場景。

 

我們在兩個多語言說話人識別數據集上顯示結果,一個由混音器數據[13]和另一個由LASRS數據組成[14],使用三個不同的系統來獲得代表每個樣本的向量。我們表明,當使用語言作爲所有三個系統的滋擾條件時,JPLDA比標準PLDA方法有顯着改進。這些結果強化了[8]中得出的結論,其中三種系統中只有一種用於實驗。此外,我們還表明,通過爲樣本的麥克風,噪聲,編解碼器和混響特性添加有害術語可以獲得額外的增益。

式。 但請注意,該等式中的最後一項不應該存在(該錯誤已由該論文的一位共同作者確認)。 對於這項工作,我們假設每個試驗由一個登記和測試樣本組成。

3.Joint PLDA

聯合PLDA模型,最初在[7]中提出,然後在[8]中進一步開發和測試多語言說話人識別任務,是PLDA的推廣,其中討厭的變量不再被認爲是獨立於樣本的,而是可能與樣本共享(並列),這些樣本對應於相同的滋擾條件。原始作品對應同樣的滋擾條件。原始工作考慮了一個單一的滋擾條件,導出了這種情景的EM和評分公式。在這項工作中,我們進一步擴展模型以處理多種滋擾條件,假設它們的影響是獨立的和附加的。

我們假設說話者內的可變性可以被分解爲對應於不同的煩擾條件的N個術語,這些術語可以對應於例如樣本中所說的語言,麥克風類型,噪聲類型和水平,或任何其他特徵。可

4.實驗設置

在本節中,我們將描述訓練和測試數據集以及我們實驗中使用的不同說話人識別系統。

4.1。揚聲器識別系統

我們比較了使用三種不同程序提取的載體上的不同PLDA技術。在所有情況下,我們使用語音活動檢測系統(在[8]中詳細描述)在提取表示每個樣本的向量之前丟棄非語音幀。

UBM i-vector系統(ubmivs):這是一個傳統的i-矢量系統,它使用20維度的mel頻率倒譜系數(MFCC),附加增量和雙增量,2048分量GMM作爲通用背景模型(UBM) )和400維i矢量提取器。有關該系統的更多詳細信息,請參閱[8]。

混合對齊系統(hybrivs):混合對齊框架[19]在混合條件下提供具有競爭力的說話人識別性能。該系統利用經過培訓的DNN來預測3450個三電話狀態,以提取80維瓶頸功能。這些語音豐富的瓶頸功能用於訓練2048高斯的UBM,後來用於生成幀佔用或輸入音頻的對齊。這些比對用於生成零階統計量,並與附加有增量和雙增量的20維MFCC相結合,以計算一階統計量。統計數據用於訓練400維的i向量子空間,從中提取i向量用於我們的PLDA實驗。 DNN的訓練數據包括Fisher,Switchboard和Callhome數據(關於DNN的更多細節可以在[20]中找到),而UBM則使用PRISM訓練集的非降級信號進行訓練。

揚聲器嵌入系統(嵌入):揚聲器識別的最新進展已經通過使用直接訓練直接訓練揚聲器類的深度神經網絡顯示出顯着的改進,然後提取富含的嵌入(低維和固定維向量)揚聲器信息,來自網絡中的隱藏層,用於後續後端分類[21,22]。我們在[23]中的工作被用於當前的研究,其中使用來自PRISM培訓列表的非降級子集的56,000個音頻文件中的大約3,200個發言者的數據訓練嵌入網絡,每個音頻文件降級四次,四個不同降級類型(16倍降級)由噪聲,混響,壓縮和音樂組成。在統計池圖層之後從第一個隱藏層提取512個維度的嵌入。這些牀墊用於PLDA實驗。

這三個系統產生的矢量使用線性判別分析(LDA)進一步轉換爲300個維度。使用與PLDA方法相同的數據訓練LDA,如下所述。然後在訓練或應用PLDA模型之前將矢量平均值和長度標準化[24]。

4.2.PLDA培訓數據

所有PLDA方法的訓練數據由完整的PRISM訓練集[25]給出,其中包含通過在8,15和20 dB信噪比下添加嘈雜噪聲來清潔混音器收集信號而產生的模擬噪聲信號比率(SNR)和模擬混響信號是通過在不同的RT60混響時間爲0.3,0.5和0.7的情況下將相同的清潔信號與不同的房間脈衝響應進行卷積而產生的。最後,在這個原始的PRISM訓練列表中,我們添加了其他降級信號,這些信號是通過使用許多不同的編解碼器對乾淨信號進行轉碼而創建的。這是SRI用於培訓PLDA模型幾年的數據。但是,在這種情況下,我們丟棄了一小部分訓練樣本,這些樣本來自只有一兩個發言者的語言,以及語言不可用或含糊不清的樣本。所有降級數據都是英文版,只有一種類型的降級而降級:噪聲,混響或編解碼器失真。

訓練數據標有五個令人討厭的條件標籤:(1)語言,(2)麥克風,(3)噪聲,(4)混響和(5)編解碼器。語言條件標籤由樣本中的語言給出。麥克風標籤由收集標識符(交換機,Fisher等)和隨集合提供的麥克風標籤組合而成。噪聲,混響和編解碼器條件的標籤由降級類型(噪聲信號,房間類型或編解碼器)和降級水平(RT或SNR)以及非降級信號的一個標籤給出。表1顯示了訓練數據的統計數據。

4.3。測試數據

我們考慮四種測試條件,一種使用混合器數據,另外三種使用LASRS數據。

混音器測試數據由來自混音器集合[13]的電話樣本組成,來自2005年至2010年NIST演講者識別評估,來自未用於培訓的演講者。我們從21位發言者中包括119份阿拉伯語樣本;來自47位發言者的200個俄語樣本;來自38位發言者的309份泰語樣本;來自163位發言者的827箇中文樣本;來自701位發言人的5,755個英文樣本。通過選擇相同數量的目標和冒充者同一語言和跨語言試驗來創建試驗,使得最終試驗集是兩種類型試驗的平衡聯合。此外,同一語言試驗被創建爲英語和非英語試驗的平衡結合。最後一組試驗,我們稱之爲Mixer Cln-mic All-lang(Cln代表乾淨,指的是樣品不會降解電話樣品,儘管它們可能有不同類型的“野生”降解),包括11,522個目標試驗和858,119個冒名頂替試驗。

LASRS測試數據由來自雙語,多模型語音語料庫的樣本組成[14]。語料庫由大約100名來自三種語言的雙語人士組成:阿拉伯語,韓語和西班牙語。要求每位發言者用英語和母語執行一系列任務。每個任務使用七個錄音設備(攝像機,臺式機,錄音室,全向和三個電話麥克風)錄製,並在不同日期錄製的兩個單獨的會話中重複。對於我們的實驗,我們使用來自所有發言者的對話數據。通過從第一個記錄的會話中註冊數據並在兩種口語中的每一種語言中測試第二次記錄的會話來創建試驗。這導致總共大約390萬個冒名頂替者和34,000個(K)目標試驗。這就是我們所說的All-mic All-lang條件。我們還對試驗進行了分組,僅包括三個更清潔且與培訓中看到的有些相似的麥克風(兩個電話和工作室麥克風)。這個子集,我們稱之爲Cln-mic All-lang,包含大約715K冒名頂替者和6.2K目標試驗。最後,我們創建了另一個子集,僅包括英語和英語試驗。這個子集,我們稱之爲All-mic Eng,包含783K冒名頂替者和7.8K目標試驗。

5.Results

圖1顯示了所有三個矢量提取程序和所有四個測試集的目標概率爲0.01,未命中成本爲10,誤報成本爲1 [26]的最小檢測成本函數(DCF) 。對於所有方法,等級Ry設置爲200。對於FPLDA,使用混頻器數據將Rx等級優化爲40。最後,對於JPLDA,我們在所有情況下都使用可用於每種滋擾條件的最大等級,該條件由該條件的標籤數量(表1中所示)減去1.這些等級未被調整。對於兩個說話者假設的所有條件,相同條件的先驗概率被設置爲0.1(參見第3.2節)。這在Mixer數據上進行了輕微優化。然而,高於0.05和低於0.5的值給出了所有JPLDA系統的類似性能。

結果表明,帶有語言標籤的JPLDA爲兩個Cln-mic全能測試集帶來了巨大的收益,這些測試集包括相對乾淨且與訓練中看到的相匹配的所有語言和麥克風。這與我們在[8]中爲ubmivs系統得到的結論相同。在這裏,我們表明這個結論適用於所有三個測試系統。對於這兩個測試集,添加其他煩擾條件的收益很小。這可能是由於大多數訓練數據與這些測試集中的聲學條件相匹配的事實。

當測試裝置包括比訓練中更嘈雜,更失真或不匹配的麥克風時,帶有語言標籤的JPLDA的收益變得更小,並且在模型訓練期間添加其他煩擾條件的優勢變得更加明顯。總的來說,我們看到同時考慮語言和聲學條件的模型總是與分別考慮語言或聲學條件的兩個模型中的最佳模型相似或更好。

6。結論

我們提出了PLDA的概括,它可以根據常見的滋擾條件對樣本之間的依賴關係進行建模。這種新模式,我們稱之爲聯合PLDA(JPLDA),因爲它能夠共同模擬說話人身份和感興趣的滋擾條件,最近在使用語言作爲滋擾條件時,在多語言說話人識別任務中表現優於PLDA。 。在這項工作中,我們進一步概括了允許多種滋擾條件的方法,並提出了一種簡單快速的訓練算法,以及在測試時不需要了解有害條件標籤的評分程序。結果表明,與標準PLDA和僅使用語言或聲學條件的JPLDA相比,語言和一組聲學條件的聯合建模可獲得最佳結果。進一步的工作包括研究在訓練數據沒有這些標籤時自動估算條件標籤的方法,將評分公式推廣到多個輸入樣本,併爲多種滋擾條件推導出EM算法。  

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章