(IS 19)Unsupervised Raw Waveform Representation Learning for ASR

會議:INTERSPEECH 2019
論文:Unsupervised Raw Waveform Representation Learning for ASR
作者:Purvi Agrawal, Sriram Ganapathy

Abstract

在本文中,我們提出了一種在無監督學習範例中使用原始語音波形的深度表示學習方法。提出的深度模型的第一層執行聲學濾波,而隨後的一層執行調製濾波。使用學習其參數的餘弦調製高斯濾波器實現聲學濾波器組。調製濾波是在第一層的對數轉換後的輸出上執行的,這是使用基於跳過連接的體系結構來實現的。來自兩層濾波的輸出被饋送到變分自動編碼器模型。所有模型參數(包括過濾層)均使用VAE成本函數進行學習。我們在語音識別任務中採用學習的表示形式(第二層輸出)。在Aurora-4(具有通道僞像的加性噪聲​​)和CHiME-3(具有混響的加性噪聲​​)數據庫上進行了實驗。在這些實驗中,從建議的框架中學習到的表示比基線濾波器組功能和其他強大的前端在ASR結果上有了顯着改進(在乾淨和多條件訓練中,單詞錯誤率相對於基線特徵平均分別提高了16%和6%) ,分別在Aurora-4數據集上,比CHiME-3數據庫的基線特徵高21%)。

5. Summary

這項工作的主要貢獻如下:

  • 提出了具有最初兩層卷積的CVAE架構,用於從無監督學習目標的原始波形中進行語音表示學習。
  • 卷積的第一層執行聲學FB學習,它顯示爲類似於mel FB的非線性頻率分辨率。 在ASR任務中,提出的聲學濾波器的性能類似於mel濾波器,並且比以前的無監督FB學習方法有所改進。
  • 第二層執行調製濾波。 基於聯合聲學和調製濾波的功能用於ASR。
  • 使用來自建議的CVAE模型的表示,相對於基線特徵,多個數據集有了顯着改進。

1. Introduction

儘管隨着深度神經網絡(DNN)的成功,自動語音識別(ASR)系統的性能已得到顯着改善,但火車和測試條件不匹配時的性能下降仍然是要克服的挑戰性任務[1]。通過獲得魯棒的語音表示可以部分克服它,其中表示不太容易受到噪聲和混響的影響。本文着重於魯棒語音表示的無監督學習方法。

語音處理應用程序的功能主要基於人類聽覺處理的屬性。對於語音識別功能,傳統方法如mel濾波器組和gammatone濾波器組[2,3]近似於人類聽力的早期部分。最近,隨着神經網絡的出現,從數據中學習特徵的方法已得到積極的追求[4-6]。在有監督的數據驅動方法中,基礎模型可以從原始信號中自動發現手頭目標所需的功能,例如檢測或分類。像[5,7,8]之類的幾項工作專門在網絡的初始層中結合了使用卷積層的類似於聲學mel濾波器的學習。但是,這些方法高度依賴於標記訓練數據的數量。此外,許多先前的工作都使用mel初始化。在本文中,我們假設即使沒有標記數據也可以有效地執行表示學習。

在無監督表示學習的先前工作中,使用受限的Boltzmann機器(RBM)得出了聲濾波器組[9,10]。這些工作採用了大量可學習的參數(例如,對於使用[10]方法的128個抽頭的80個濾波器,使用128×80個參數)。爲了克服這個問題,最近的努力引入了參數濾波器學習,例如高斯濾波器[11]和Sinc濾波器[12]。由於自由參數的數量較少,因此參數化方法比標準卷積層具有優勢。但是,這些工作也以監督方式對網絡進行了訓練,以完成ASR的音素分類任務。在本文中,我們提出了一種無監督的參數濾波器學習方法,據我們所知,這是首次嘗試。

這項工作直接從原始語音波形中提出了一種深度無監督的表示學習方法。特別地,表示學習作爲兩層過程進行。首先,使用CVAE中的第一卷積層從原始波形中學習聲學濾波器組。我們使用餘弦調製的高斯函數作爲聲學濾波器,以中心頻率和帶寬爲可學習參數,並以隨機初始化爲起點。在時域中進行卷積,並將該層的輸出合併並進行對數轉換以獲得時頻表示。下一層從獲得的表示中學習頻譜和時間調製濾波器[13]。然後將過濾後的頻譜圖用作ASR的功能。在Aurora-4(帶有通道僞像的加性噪聲​​)和CHiME-3挑戰(帶有混響的加性噪聲​​)數據庫上執行ASR實驗。相對於其他各種抗噪聲能力強的前端,所提出的方法在WER方面提供了顯着的改進。

2. Filterbank learning using CVAE

2.1. Variational Autoencoder (VAE)
2.2. Acoustic filterbank learning
2.3. Modulation filter learning
2.4. Filter characteristics
2.5. Feature extraction for ASR

3. Experiments and results

The speech recognition Kaldi toolkit [19] is used for building the ASR on two datasets, Aurora-4 and CHiME-3 respectively. A deep belief network- deep neural network (DBN-DNN) with 4 hidden layers having 21 frames of input temporal context and a sigmoid nonlinearity is discriminatively trained using the training data and a tri-gram language model is used in the ASR decoding. For each dataset, we compare the ASR performance of the proposed approach of filtered representation (Prop) with traditional mel filterbank energy (MFB) features, power normalized filterbank energy (PFB) features [20], advanced ETSI front-end (ETS) [21], RASTA features (RAS) [22], LDA based features (LDA) [23], and MHEC features (MHE) [24]. In particular, the RASTA features (RAS) and LDA features are included as they both perform modulation filtering in the temporal domain using a knowledge driven filter and a supervised data driven filter, respectively.

3.1. Aurora-4 ASR
WSJ Aurora-4語料庫用於進行ASR實驗。 該數據庫包含5000個單詞的語料庫的連續讀取語音記錄,這些記錄是在乾淨和嘈雜的條件下(街道,火車,汽車,汽車,餐館,飛機場和機場)以SNR 10-20 dB記錄的。 訓練數據分別具有兩組7138乾淨和多狀態記錄(84個揚聲器)。 驗證數據具有兩組用於清潔和多條件設置的1206記錄。 對於14種清潔和噪聲情況,測試數據均具有330條記錄(8個揚聲器)。 測試數據分爲A組-乾淨數據,B-噪聲數據,C-通道失真的清潔數據和D-通道失真的噪聲數據。
在這裏插入圖片描述
在這裏插入圖片描述
作爲對Aurora-4數據集的初步實驗,我們在表1中比較了使用不同聲濾波器組獲得的時頻表示的ASR性能。將擬議模型的聲FB層輸出(CVAE-Acoustic)與MFB和從CRBM [10]以無監督的方式學習了FB的聲學輸出。可以觀察到,在所有測試條件下,兩種訓練條件下CVAE聲學功能的表現均與MFB功能相似,並且明顯優於以前的濾波學習方法。

表2和表3分別​​針對14個測試條件中的每一個,在乾淨和多條件訓練條件下針對提議的(Prop)功能(聯合聲學和調製濾波)的ASR性能分別示於表2和表3中。還針對不同的噪聲條件分別報告了ASR結果。從這些結果中可以看出,在多條件訓練中,大多數抗噪能力強的前端並沒有超過基線mel濾波器組(MFB)性能。提出的特徵提取方案在基線系統上的ASR性能上有了顯着的提高(在乾淨訓練中,相對於MFB的平均相對改進爲16%,在多條件訓練中,平均爲6%)。此外,在所有嘈雜的測試條件下,都能始終看到ASR性能的提高。

3.2. CHiME-3 ASR
用於ASR的CHiME-3語料庫包含日常環境中的多麥克風平板設備錄音,這是第三次CHiME挑戰的一部分[25]。 目前存在四種不同的環境,即咖啡館(CAF),路口(STR),公共交通(BUS)和步行區(PED)。 對於每種環境,存在兩種類型的有聲語音數據,即真實的和模擬的。 實際數據包括在上述環境中使用的WSJ0語料庫的句子的6通道記錄。 通過將乾淨話語與環境噪聲人工混合來構建模擬數據。 訓練數據具有1600個(實際)噪聲記錄和7138個模擬噪聲說話。 我們將波束成形的音頻用於使用CVAE進行濾波器學習,以及用於ASR培訓和測試。 開發(開發)和評估(評估)數據分別由410和330語音組成。 對於每個集合,在四個CHiME-3環境中,四個不同的說話者會朗讀這些句子。
在這裏插入圖片描述
結果總共有1640個(410×4)和1320個(330×4)真實發聲和評價話語。通過將在記錄間中捕獲的記錄與環境噪聲記錄進行混合,可以創建大小相同的模擬開發和評估集。

表4中報告了CHiME-3數據集的結果。CVAE-聲學功能與ASR中的MFB功能相似。但是,提出的(Prop)特徵提取(聯合聲學和調製濾波)方法相對於基線系統以及此處考慮的其他抗噪能力強的前端提供了顯着改進。平均而言,所提出的方法相對於開發集中的MFB功能提供了15%的相對改進,對評估集提供了21%的相對改進。表5中報告了CHiME-3中不同噪聲的詳細結果。對於在模擬和實際環境中CHiME-3中的所有噪聲情況,所提出的方法均顯示出比基線MFB功能有顯着改善。在評估數據集中,大多數噪聲條件在基線特徵方面的相對改進都在20%以上。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章