端到端說話人驗證系統中長度歸一化的分析

Analysis of Length Normalization in End-to-End Speaker Verification System

端到端說話人驗證系統中長度歸一化的分析

摘要

經典的i-vector和最新的端到端深度說話人嵌入是自動說話者驗證系統中話語級表示的兩個代表性類別。傳統上,一旦提取了i-vector或深度說話人嵌入,我們依靠額外的長度歸一化步驟來在後端建模之前將表示標準化爲單位長度超空間。在本文中,我們探討了神經網絡如何以端到端的方式學習長度歸一化的深層說話人嵌入。爲此,我們在公共分類網絡的輸出層之前添加一個長度標準化層,後跟一個比例圖層。我們對Voxceleb1數據集的驗證任務進行了實驗。結果表明,在端到端培訓管道中集成這一簡單步驟可顯着提高說話人驗證的性能。在我們的L2標準化端到端系統的測試階段,簡單的內部產品可以實現最先進的技術。

索引術語:說話人驗證,長度歸一化,端到端,深度說話人嵌入

1.簡介

說話人識別(SR)任務可以被定義爲話語級別的“序列對一”學習問題。問題在於我們試圖檢索關於整個話語的信息而不是特定的單詞內容[1]。此外,對詞典單詞沒有約束,因此訓練話語和測試片段可能具有完全不同的內容[2]。因此,給定輸入語音數據,目標可以歸結爲將它們轉換爲話語水平表示,其中類間變異最大化並且同時使類內變異最小化[3]。

通常,SR可以分類爲說話人識別(SID)任務和說話者驗證(SV)任務[4]。前者將說話者分類爲特定身份,而後者則確定一對話語是否屬於同一個人。對於開放式協議,測試集中的說話者身份通常與訓練集中的說話者身份不相交,這使得SV更具挑戰性,但更接近實踐。由於將測試話語分類爲訓練集中的已知身份是不可能的,因此我們需要將說話人映射到判別特徵空間。在這種情況下,開集SV本質上是一個度量學習問題,其關鍵是學習有區別的大邊緣說話人嵌入。

通常有兩類用於獲得話語級別的說話人表示。第一個由一系列分離的統計模型組成。代表是經典的i-vector方法[5]。首先,從原始音頻信號中提取幀級特徵序列。然後,將訓練數據集中的選定要素框組合在一起,以估計基於高斯混合模型(GMM)的通用背景模型(UBM)[6]。累積了對UBM上每個話語的充分統計,並且訓練了基於因子分析的i-vector提取器以將統計量投影到低秩總變異性子空間[5]。

另一類依賴於通過端到端深度神經網絡[7,8,9,10]的下游程序訓練的模型。首先,以與i-vector方法相同的方式,也提取幀級特徵序列。然後,自動幀級特徵提取器,如卷積神經網絡(CNN)[8,11],延時神經網絡(TDNN)[9]或長期短期記憶(LSTM)網絡[7,12]是被設計爲獲得高級抽象表示。之後,在頂部構建統計彙集[9]或編碼層[13]以提取固定維度話語級別表示。該話語級表示可以通過完全連接(FC)層進一步處理,最後與輸出層連接。端到端管道中的所有組件都通過統一的損失功能共同學習。

在經典的i-vector方法中,需要一個額外長度的標準化步驟,以便在後端建模之前將表示規範化爲單位長度超空間[14]。當它變成端到端系統時,一旦我們從神經網絡中提取深層說話人嵌入,例如x-vector [15],在計算成對分數時也需要這個長度歸一化步驟。

在本文中,我們探索端到端SV系統,其中長度歸一化步驟在深度神經網絡中固有地內置。因此,神經網絡可以學習以端到端方式進行長度歸一化的說話者嵌入。

  1. 相關工作

2.1.i-vector方法中的長度歸一化

長度歸一化已被分析並證明是SR的有效策略,但在傳統的i-vector方法中受到限制[14]。如圖1所示,i-vector上的這種簡單的非線性變換在後端建模之前已成爲事實上的標準[16,17]。

對於閉集SID任務,通常採用長度歸一化,然後採用邏輯迴歸或支持向量機來獲得說話人類別的後驗概率。對於開放式SV任務,餘弦相似性或長度標準化後跟概率線性判別分析(PLDA)評分[18,19]建模被廣泛用於獲得最終的成對分數。餘弦相似度是一種與幅度無關的相似度,它可以看作是兩個向量的內積的長度歸一化版本。在上述系統中,前端i-vector建模,長度標準化步驟和後端建模都是相互獨立的,並且是分開執行的。

2.3常用端到端深層說話人嵌入系統的長度歸一化

對於開放式SV任務,由於不可能將測試結果分類爲訓練集中的已知身份,端到端分類網絡扮演自動說話人嵌入式提取器的角色,如圖1所示。 2.一旦提取出深度說話人嵌入(例如x向量),就像在i-vector方法中一樣,通常需要PLDA跟隨的餘弦相似性或長度歸一化來獲得最終的成對分數。 值得注意的是,無論是餘弦相似度還是PLDA建模,長度歸一化都是對提取的說話人嵌入執行的額外步驟,並且是端到端的方式。

3.深度標準化

如2.1節所述,傳統i-vector方法中的後端建模通常在單位長度超空間上執行。然而,當它變成端到端深度神經網絡時,實際上後端softmax分類器通常採用基於內積的FC層而不進行歸一化。這意味着如果我們想要在提取的深層說話人嵌入(例如代表性x向量)上執行餘弦相似性或PLDA,我們應該首先用單位長度手動標準化它們。

它激勵我們,是否有可能在普通分類網絡中以端到端的方式學習深度說話人嵌入的長度標準化。人們可能會想到端到端方式的長度歸一化或端到端方式之間的實質差異。這個問題已由[23,24]在計算機視覺社區中進行了研究。深度標準化的效果相當於在原始損失函數上添加L2約束。由於深度說話人嵌入以端到端方式進行長度歸一化,我們的優化對象不僅要求說話人嵌入分離,還要求約束在一個小單位超空間。這使得培訓網絡變得更加困難,但另一方面,可以大大提高其網絡化能力。爲此,一種天真的做法就是在輸出層之前添加L2規範化層。但是,我們發現培訓過程可能不會收斂並導致相當差的性能,特別是當輸出數量 - gories非常大。原因可能是單位長度超球面的表面積不足以容納如此多的說話人嵌入,但也允許它們的每個類別是可分離的

正如在[23,24]中所做的那樣,我們引入了一個尺度參數α來將長度標準化的說話人嵌入成形爲合適的半徑。刻度層可以將單位長度的說話人嵌入縮放到由參數α給出的固定半徑。因此,我們引入的深度長度歸一化的完整公式可表示爲

我們基於Kaldi工具包構建了一個引用的i-vector系統[26]。 首先,20維梅爾頻率倒譜系數(MFCC)增加了它們的delta和double delta係數,從而形成了60維MFCC特徵向量。 然後,基於能量的幀級語音活動檢測(VAD)選擇與語音幀相對應的特徵。 訓練2048分量的全協方差GMM UBM,以及400維i矢量提取器和滿秩PLDA。

4.3端到端系統

音頻轉換爲64維日誌mel-filterbank內容,幀長爲25 ms,在最多3秒的滑動窗口內進行均值歸一化。基於能量的幀級語音活動檢測(VAD)選擇與語音幀相對應的特徵。爲了獲得更高水平的抽象表示,我們設計了一個基於着名的ResNet-34架構[27]的深度卷積神經網絡(CNN),如表1所示。其次是前端深CNN,我們採用最簡單的平均彙總層來提取話語級均值統計。因此,給定形狀爲64L的輸入數據序列,其中L表示可變長度數據幀,我們最終得到128維話語級別的表示。

該模型採用128的小批量訓練,使用典型的隨機梯度下降,動量爲0.9,重量衰減爲1e-4。學習率設定爲0.1,0.01,0.001,並在訓練失敗時切換。對於每個訓練步驟,隨機生成[300,800]區間內的整數L,並將小批量中的每個數據裁剪或擴展爲L幀。模型訓練完成後,在倒數第二層神經網絡後提取128維說話人嵌入。

我們首先研究尺度參數α的設定。對於表3和圖4中的那些系統,採用餘弦相似性或等效的L2歸一化內積來測量說話人嵌入之間的相似性。從圖4中我們可以觀察到所提出的L2標準化深度嵌入系統達到最佳minDCF爲0.475,0.586和EER爲5.01%,顯着優於基線系統。根據等式(3),對於1211的說話人類別C和0.9的概率分數p,α的理論下限是9.當α低於下限並且α高於α時,性能差。下限。我們中最好的α

實驗是12,它比下限略大。我們進一步比較了整個SV管道中深度長度歸一化策略和傳統超長度歸一化的影響。結果顯示在表2中。無論在i-vector還是基線深度說話人嵌入系統中,額外長度歸一化步驟隨後PLDA評分達到

最好的表現。當它變成L2標準化深度說話人嵌入系統時,由於從神經網絡中提取的說話人嵌入已經被標準化爲單位長度,我們不需要額外的長度標準化步驟。在測試階段,簡單的內部產品可以獲得最佳性能,甚至比PLDA評分結果略好。這可能是我們的L2標準化說話人嵌入高度優化的原因,這可能是不相容的PLDA引入的目標函數。

5結論

在本文中,我們探索了端到端SV系統中的深度規範化策略。我們在深度神經網絡的輸出層之前添加了一個L2規範化層,後面是一個縮放層。這種簡單而有效的策略使學到了

深度說話人嵌入以端到端方式歸一化。比例參數α的值對系統性能至關重要,特別是當輸出類別的數量很大時。實驗表明,通過設置適當的α值可以顯着提高系統性能。在裏面L2標準化深嵌入系統的測試階段,簡單的內部產品可以實現最先進的技術。

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章