語音識別數據增強方法(google2019年7月論文)

論文:https://arxiv.org/pdf/1904.08779.pdf

要點:

我們構建了一個直接作用於對數梅爾頻譜圖的增強策略,以幫助網絡學習有用的功能。 出於以下目的的動機:這些功能應對時間方向的變形,頻率信息的部分丟失以及小部分語音片段具有較強的魯棒性,因此,我們選擇了以下變形來制定策略:
1.使用tensorflow的sparse_image_warp函數進行時間扭曲。給定具有τ個時間步長的對數梅爾頻譜圖,我們將其看作時間軸爲水平軸,頻率軸爲垂直軸的圖像。沿水平線在時間步長(W,τ-W)中穿過圖像中心的隨機點應向左或向右彎曲一段距離w,該距離應從0到時間扭曲的均勻分佈中選擇 沿該線的參數W。我們在邊界上固定六個錨點-垂直邊緣的四個角和中點。
2.應用頻率屏蔽,以便屏蔽f個連續的mel頻道[f0,f0 + f),其中f首先從0到頻率屏蔽參數F的均勻分佈中選擇,f0從[0,ν-f )中選擇。 ν是梅爾頻率通道的數量。
3.應用時間屏蔽,以便屏蔽t個連續的時間步長[t0,t0 + t),其中,首先從0到時間屏蔽參數T的均勻分佈中選擇t,然後從[0,τ- t)中選擇t0。

我們在時間掩碼上引入了一個上限,以使時間掩碼的寬度不能超過時間步數的p倍。

這些圖從上到下描繪了基本輸入的對數梅爾聲譜圖,未進行增強,時間扭曲,頻率屏蔽和時間屏蔽。
在這裏插入圖片描述
圖中顯示了應用於單個輸入的各個增強的示例。 將對數梅爾頻譜圖歸一化爲平均值爲零,因此將掩碼值設置爲零等效於將其設置爲平均值。
在這裏插入圖片描述
這些圖從上到下描繪了應用了None,LB和LD策略的基本輸入的對數梅爾頻譜圖。

我們可以考慮應用多個頻率和時間掩碼的策略。 多個掩模可以重疊。 在這項工作中,我們主要考慮一系列手工制定的策略,LibriSpeech basic(LB),LibriSpeech double(LD),Switchboard mild(SM)Switchboard strong(SS),其參數彙總在表1中。在圖2中, 我們展示了一個使用策略LB和LD增強的對數梅爾頻譜圖的示例。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章