利用說話人嵌入實現混響環境下遠距離語音的魯棒說話人識別

Robust Speaker Recognition from Distant Speech under Real Reverberant Environments Using Speaker Embeddings

3.演講者識別系統

在本節中,我們將描述爲我們的實驗開發的說話人識別系統。我們使用三種不同的說話人識別系統,包括傳統的基於UBM i-vector的系統,基於DNN瓶頸特徵的混合對齊框架i-vector系統[21],以及基於DNN揚聲器嵌入式系統的先進系統[22,23]。這些系統使用概率線性判別分析(PLDA)後端分類器來計算說話者相似度得分。

所有這三個系統都使用基於DNN的語音活動檢測(SAD),其中兩個隱藏層分別包含500和1000個節點。使用20維Mel頻率倒譜系數(MFCC)特徵訓練SAD DNN,堆疊31幀。 MFCC是在訓練SAD DNN之前在201幀窗口上歸一化的均值和方差。在訓練和評估中選擇語音與非語音幀的閾值爲0.5,除了在說話人嵌入提取器DNN訓練期間,根據[23]的發現使用閾值-1.5。

3.1.UBM I-Vector系統

這是一個傳統的i-vector系統[24],它使用20幀MFCC,幀長爲25 ms,步長爲10 ms,均值和方差在3秒的滑動窗口內歸一化。 MFCC使用增量和雙增量進行上下文化,以創建60維特徵向量。 通用背景模型(UBM)是與性別無關的2048分量對角協方差高斯混合模型(GMM)。 該系統使用400維i矢量提取器。 對於UBM和i-vector提取器的訓練,我們使用了原始的PRISM訓練列表,包括降級[25]。

3.2.Hybrid對齊瓶頸I-矢量系統

混合對齊框架基於DNN瓶頸特徵,旨在改善基於DNN的說話人識別系統在不同條件下的校準[21]。該框架使用兩組特徵:用於確定Baum-Welch統計計算中的幀對齊(零階統計)的第一組特徵和用於計算一階統計的第二組特徵。與使用串聯MFCC和瓶頸特徵相比,通過將瓶頸特徵的使用限制爲在i矢量提取期間對準標準聲學特徵,該過程產生了更加穩健校準的基於DNN的系統。

對於這個系統,我們使用DNN BN提取器訓練從20維功率歸一化倒頻譜系數(PNCC)[26]上下文主成分分析離散餘弦變換(pcaDCT)[27]與15幀的窗口創建然後使用三秒的滑動窗口對DNN的90維輸入進行均值和方差歸一化。 DNN經過訓練,使用Fisher和Switchboard電話數據區分1933個Senones,由五層1200個節點組成,第四個隱藏層除外,它有80個節點並形成瓶頸提取層。與BN特徵和2048分量對角協方差UBM對齊的一階特徵是20維的MFCC,也使用具有60維輸出的15幀窗口的pcaDCT進行上下文化。在所有情況下,使用DNN訓練數據的子集來學習pcaDCT的主成分分析(PCA)變換。爲了訓練UBM和i-vector提取器,我們使用了原始的PRISM訓練列表,包括降級[25]。該系統還提取了400維i向量。

3.3.DNN揚聲器嵌入系統

近年來,DNN的說話者判別訓練已被用於從DNN的隱藏層之一中提取說話者特徵的低維表示。這種低維表示,豐富的揚聲器信息,被稱爲揚聲器嵌入。這些揚聲器嵌入式替代了上述系統中使用的i向量。基於DNN的揚聲器嵌入已經產生了新的最先進的與文本無關的說話人識別技術,因爲它能夠推廣到看不見的條件[28,22]。

爲了訓練揚聲器嵌入提取器,我們使用了來自PRISM訓練列表的非降級子集的52,456個音頻文件[25]。然後,我們使用四種不同的降級類型的四個副本來增強這些數據,包括隨機選擇的音頻壓縮;隨機選擇5 dB信噪比(SNR)的樂器音樂;在5 dB SNR下隨機選擇噪聲;以及隨機選擇具有低混響的混響信號。這次擴充導致共有891,752個分段來自3,296個發言人,用於培訓嵌入式提取器。關於該系統的更多細節可以在[23]中找到,其中系統表示爲原始+ CNLRMx4。

3.4.概率線性判別分析(PLDA)分類器

我們使用與性別無關的概率線性判別分析(PLDA)[29]來計算說話人識別系統的得分。來自這些系統(i-vector或揚聲器嵌入)的固定維揚聲器表示使用線性判別分析(LDA)進一步轉換爲200維,然後進行長度歸一化和平均居中[30]。爲了訓練PLDA模型和LDA,我們使用了完整的PRISM訓練列表,其中包括噪聲和混響降級。其他轉碼數據被添加到此PLDA訓練數據中[3]。

這裏需要注意的一點是,i-vector提取器(UBM / T)被訓練到原始的PRISM列表,因爲它對擴充沒有很好的反應[22],而DNN嵌入式拖拉機在原始PRISM列表上進行了訓練16倍增加。我們的假設是,每個i-vector系統都是在很長一段時間內開發出來的,具有不同類型的訓練數據,我們根據來自衆多研究團隊的文獻,使用了最常見的訓練集集合。這並不意味着它是最佳的訓練集,而是社區在多年的i-vector研究中確定的一套。

4.實驗評估

在本節中,我們對SRI遠程語音收集和VOICES數據集中描述的每個說話人識別系統進行基準測試。 我們還分析了麥克風距離和位置,背景噪聲和揚聲器方向對揚聲器識別系統

性能的影響。 我們以相等的錯誤率(EER)百分比來報告我們的結果。

 

4.1.評估協議

來自SRI遠程語音收集數據集的音頻文件基於SAD輸出被切割成20秒的塊,然後用於登記和驗證。 我們對來自源數據的單個20秒音頻切換進行了登記,並在單個20秒切割時驗證了放置在不同位置的不同麥克風。 對於VOICES數據集,註冊/測試段長度爲14秒,語音密集。

4.2.標記結果

首先,我們通過UBM-IV,Hybrid-IV和揚聲器嵌入系統上的SRI遠程語音收集和VOICES數據集,展示不同房間的基準測試結果。 我們報告在計算EER之前,每個房間和每個語料庫的單個錯誤率(EER)的單個測量值彙集了來自所有麥克風的試驗。 對源數據進行了註冊,並對遠程語音進行了測試。 雖然VOICES數據集包含各種干擾物聲音,但在本節中我們僅報告不包含背景噪聲的數據子集。 這些結果總結在圖2中。

我們觀察到,基於揚聲器嵌入的系統在混響條件以及源數據集中始終優於基於i-vector的系統。 對於不同的房間,SRI遠程語音收集的基線系統的相對增益範圍爲47%至54%。

4.3.麥克風距離和位置的影響

接下來,我們將在表3中展示麥克風距離和揚聲器放置影響的結果。我們觀察到,在這種情況下,基於揚聲器嵌入的系統也大大優於基於i-vector的系統。 等誤差率隨距離增加而增加。 值得注意的是,隱藏式麥克風(例如桌下麥克風)對揚聲器識別系統構成了重大挑戰。

5.結論

我們研究了遠程語音對說話人識別系統性能的影響。 這項工作中使用的語料庫是在實際的混響室中收集的,而不是通過軟件模擬創建的。 我們對兩個不同數據集上的三個說話人識別系統的性能進行了基準測試。 我們觀察到基於揚聲器嵌入的說話人識別系統比基於i-vector的系統獲得了非常可觀的收益。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章