語音識別數據增強方法（google2019年7月論文）

論文：https://arxiv.org/pdf/1904.08779.pdf

要點：

我們構建了一個直接作用於對數梅爾頻譜圖的增強策略，以幫助網絡學習有用的功能。出於以下目的的動機：這些功能應對時間方向的變形，頻率信息的部分丟失以及小部分語音片段具有較強的魯棒性，因此，我們選擇了以下變形來制定策略：
1.使用tensorflow的sparse_image_warp函數進行時間扭曲。給定具有τ個時間步長的對數梅爾頻譜圖，我們將其看作時間軸爲水平軸，頻率軸爲垂直軸的圖像。沿水平線在時間步長（W，τ-W）中穿過圖像中心的隨機點應向左或向右彎曲一段距離w，該距離應從0到時間扭曲的均勻分佈中選擇沿該線的參數W。我們在邊界上固定六個錨點-垂直邊緣的四個角和中點。
2.應用頻率屏蔽，以便屏蔽f個連續的mel頻道[f0，f0 + f），其中f首先從0到頻率屏蔽參數F的均勻分佈中選擇，f0從[0，ν-f ）中選擇。 ν是梅爾頻率通道的數量。
3.應用時間屏蔽，以便屏蔽t個連續的時間步長[t0，t0 + t），其中，首先從0到時間屏蔽參數T的均勻分佈中選擇t，然後從[0，τ- t）中選擇t0。

我們在時間掩碼上引入了一個上限，以使時間掩碼的寬度不能超過時間步數的p倍。

這些圖從上到下描繪了基本輸入的對數梅爾聲譜圖，未進行增強，時間扭曲，頻率屏蔽和時間屏蔽。

圖中顯示了應用於單個輸入的各個增強的示例。將對數梅爾頻譜圖歸一化爲平均值爲零，因此將掩碼值設置爲零等效於將其設置爲平均值。

這些圖從上到下描繪了應用了None，LB和LD策略的基本輸入的對數梅爾頻譜圖。

我們可以考慮應用多個頻率和時間掩碼的策略。多個掩模可以重疊。在這項工作中，我們主要考慮一系列手工制定的策略，LibriSpeech basic（LB），LibriSpeech double（LD），Switchboard mild（SM）Switchboard strong（SS），其參數彙總在表1中。在圖2中，我們展示了一個使用策略LB和LD增強的對數梅爾頻譜圖的示例。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

語音識別數據增強方法（google2019年7月論文）

要點：

AI模型 Llama 3體驗筆記

【面試準備】又一次失敗的面試經歷，題目離譜～資深軟件測試工程師

dotnet 8 版本與銀河麒麟V10和UOS系統的 glibc 兼容性

基於tensorflow和deepspeech的中文語音識別模型，訓練+部署

醫療對話場景的語音識別 |垂直領域（google 2018 論文解讀）

語音識別數據增強方法（google2019年7月論文）

財經知識 | 金融小白學習之旅

beam search解碼原理（斯坦福 2014 論文解讀）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結