作者分別來自俄亥俄州立大學，Salesforce，亞馬遜 alexa，還是值得一讀

ABSTRACT

儘管基於深度學習的端到端自動語音識別（ASR）系統大大簡化了建模流程，但它們卻遭受數據稀疏性的困擾。文章提出了一種用於半監督ASR的端到端系統的自訓練方法。以監督數據上訓練的CTC爲基礎模型，無監督mini-batch數據在該模型生成僞標籤，並使用僞標籤來擴充監督數據以立即更新模型。該方法保留了端到端ASR系統的簡單性，並且可以看作是在明確定義的學習目標上執行交替優化。文章做了些實證研究，涉及數據增強的影響，僞標記生成的解碼波束大小以及僞標記的新鮮度。在帶有WSJ語料庫的常用半監督ASR上，該方法相對ctc base系統，相對WER下降了14.4％，使基本系統與oracle系統之間的性能差距降低了50％

INTRODUCTION

現代ASR系統面臨的一個挑戰是，隨着模型容量的不斷擴大，需要大量的標記數據來對其進行全面的訓練。不幸的是，收集和記錄龐大的數據集既昂貴又費時。因此，半監督ASR已成爲重要的研究方向，其目標是利用大量未標記的數據和少量的標記數據進行訓練。在這種情況下，最簡單的方法之一是自我訓練，它使用解碼結果或對非監督數據（通常在單詞級別）上的僞標籤來增強監督訓練。它已被證明對傳統的ASR管道非常有效[1,2,3,4]。
我們交替執行以下兩個過程：1、在無監督mini-batch 句子上使用令牌級解碼器生成僞標籤，2、增強剛剛解碼的（輸入，僞標籤）對以進行有監督訓練。實驗表明，該方法可以通過對聲學模型和非監督數據的未觀察標籤進行統一目標的交替優化而得出。這兩個過程可以有效地相互增強，從而使得模型的準確性不斷提高。
不同於其他工作的點是;
The pseudo-labels we use are discrete, token-level label sequences, rather than per-frame soft probabilities
The pseudo-labels are generated on the fly, rather than in one shot, since fresh labels are of higher quality than those produced from a stale model.
We perform data augmentation not only on supervised data, but also on unsupervised data.

SUPERVISED LEARNING FOR ASR

2.1 End-to-end ASR with CTC

輸入序列X = (x1, …, xT ) ，相應的標籤序列Y=(y1,…,yL)，條件概率：

B−1(Y ) 是包含重複和的 Y的各種可能路徑，P(pj |X) 爲第j幀的後驗概率。基本假設是，以整個輸入序列X爲條件，路徑p的概率在幀上解耦。CTC loss 定義爲

CTC訓練將標記句子的平均損失降至最低。衆所周知，經過訓練後，聲學模型的每幀後驗趨於達到峯值，並且在大多數幀中，最有可能的標記是，具有高置信度，表示“無發射”。
由於上述獨立性假設，CTC並未明確建模標籤之間的轉移概率，因此解碼（maxY P（Y | X）問題）相對簡單。 CTC最簡單的解碼器是貪婪的解碼器，它在每個幀中選擇最有可能的token，然後通過除去重複和使其摺疊起來。我們將主要使用此解碼器，因爲它效率極高。可以通過在每個幀上保留W個假設的列表來改進貪婪解碼器，從而得到波束大小爲W的波束搜索解碼器。當建模單位是子詞但需要單詞級假設時，可以合併詞典和語言模型，從而可以在WFST框架中有效實現[6]。我們不使用字級解碼器來生成僞標籤，因爲它比令牌級波束搜索慢得多，而僅將其用於評估字錯誤率（WER）。應該注意的是，我們的自我訓練方法也可以利用基於注意力的系統[7，8]。我們使用CTC主要是因爲它的簡單性和解碼效率，可以實時生成僞標籤。

2.2 Data augmentation

爲了緩解數據稀疏性問題，不需要不受監督的數據的自然方法是使用distorted 來擴充訓練數據。這種獲得監督訓練信號的簡單方法有助於我們改善基本系統，從而在無監督數據上生成質量更高的僞標籤。
論文中使用了速度擾動和頻譜掩碼兩種技術，兩種技術都可以看作是在頻譜特徵上進行擾動，輸入的錄音可以看做是D×T頻譜圖，D爲頻譜單元，T爲幀數。速度擾動沿時間軸執行線性插值，就像在圖像調整大小操作中一樣；這裏使用兩個速度因子0.9和1.1。

3. leveraging unsupervised data with self-training

SEMI-SUPERVISED ASR BY END-TO-END SELF-TRAINING 端到端半監督訓練

目錄

ABSTRACT

INTRODUCTION

SUPERVISED LEARNING FOR ASR

2.1 End-to-end ASR with CTC

2.2 Data augmentation

3. leveraging unsupervised data with self-training

[軟件工具百科] 互聯網資源歷史快照歸檔站點與數字圖書館

網易面試：SpringBoot如何開啓虛擬線程？

杭州的 IT 崩盤了麼？

程序員常見的文本查看工具

VS2022 解決方案打不開 .NET Framework 4.0 、 4.5 等老項目

Vue3 運行可以，build 打包發佈報錯，app.config.globalProperties 用法坑

既然測試也要求寫代碼，那乾脆讓開發兼任測試不就好了嗎？

ITSM落地經驗之建設藍圖規劃

PDF 補丁丁 1.0.2 版更新

奇怪！應用的日誌呢？？

pytorch attention 介紹

nn參數計算

端到端asr系統搭建

貪心大綱

pytorch transformer 介紹

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結