深度學習及其在語音處理中的應用綜述

1. 前言

人工智能是當前的一個熱點話題，從當前Google旗下的AlphaGO到智能汽車，人工智能已經步入我們生活的方方面面。

機器學習是一種實現人工智能的方法，這種方法是用算法來分析數據，然後從中學習，最後對現實做出預測和決策。而深度學習，則是機器學習的一種技術。從上個世紀七八十年代BP算法的出現及其在神經網絡中的應用，很大推進了機器學習的發展。這種算法基於梯度下降法基礎之上，並且適合於多層神經網絡之中。這個階段只包含一層隱藏層節點，因此此階段被稱爲淺層學習。到2006年以後，隨着研究的繼續深入，模型包含層次越來越多，深度學習在工程方面的應用得到巨大發展。

2 深度學習

深度學習，與淺層學習相比，顧名思義，其包含隱藏節點的層數往往在5層以上，並且其是通過提取每一層特徵，將樣本在原來空間的特徵變換到一個新的特徵空間來表示原來的數據。

深度學習主要分爲以下幾類：

（1）監督學習。就是用標籤的數據調整所有層的權值和閾值，然後對網絡進行微調。

（2）非監督學習。與監督學習相反，其是用無標籤數據進行每一層預訓練，然後將其訓練結果作爲高一層的輸入。

（3）半監督學習。顧名思義，就是將監督學習與非監督學習相結合，部分層採用監督學習，部分層採用非監督學習。此種類型在實際中應用最爲廣泛。

目前常用的深度學習模型主要有：

（1）卷積神經網絡（CNNs）。這是一種前饋神經網絡，即各神經元分層排列，每個神經元只與前一層的神經元相連，接受前一層的輸出，並輸出給下一層。它包括卷積層和池層。目前其主要用來識別位移、縮放和其他形式的二維圖形。

（2）遞歸神經網絡（RNNs）。其分爲兩類，一爲時間遞歸神經網絡，其神經元間連接構成有向圖；二爲結構遞歸神經網絡，利用相似的神經網絡結構遞歸構造更爲複雜的深度網絡。遞歸神經網絡中，不僅包含前饋連接，還有單元之間的自連接或者到前面層的連接，可以當做短期記憶，使網絡記得過去的事情。

（3）限制玻爾茲曼機（RBM）。限制玻爾茲曼機是一種無監督學習模型，子模塊有兩層，每層中各節點之間是沒有連接的，第一層爲可視層，第二層爲隱藏層，其關係如圖2.1所示。一個 RBM 中包含權值、可視層偏置、隱藏層偏置這三個模型參數。

（4）自動編碼器（AE）。其同樣是一種無監督學習模型，是由自動關聯器演變而來的。自動關聯器是一種MLP結構，其中輸出、輸入維度一樣，並定義輸出等於輸入。爲了能夠在輸出層重新產生輸入，MLP得找出輸入在隱藏層的最佳表示。一旦訓練完成，從輸入到隱藏層的第一層充當編碼器，而隱層單元的值形成編碼表示。從隱藏單元到輸出單元的第二層充當解碼器，由原信號的編碼表示重構原信號。

3 深度學習在語音處理中的應用

隨着人工智能的發展，人與計算機之間的自由交互也變得越來越重要，語音處理則是其中的重要一環。現階段，語音處理主要包括語音識別、語音合成等技術。

語音識別是一種將人類所表述語言轉換成文字的技術，目前國內外許多著名的科技企業，如谷歌、微軟、訊飛等都在此領域有深入研究，在生活中，例如蘋果Siri、微軟Cortana等也被得到廣泛應用，極大的方便了人們的生活。

語音識別的過程如圖3.1所示。首先是對輸入的訓練語音信號進行預處理和提取特徵，並訓練聲學模型；而語言模型則是通過從訓練語料學習詞或句之間的相互關係，來估計假設詞序列的可能性；解碼搜索是對測試語音也經過預處理和特徵提取後的特徵向量序列與若干假設詞序列計算聲學模型分數與語言模型分數，最後將總體輸出分數最高的詞序列當做識別結果。

語音合成是通過機械的、電子的方法產生人造語音的技術。百度於2017年3月推出了實時語音合成神經網絡系統（Real-Time Neural Text-to-Speech for Production），定名爲Deep Voice，它由5個部分組成：用於定位音素邊界的分割模型；用於字素轉音素的轉換模型；判斷音素能持續多長時間的預測模型；基頻預測模型；音頻合成模型。在同樣的 CPU 與 GPU 上，系統比起谷歌 DeepMind 的WaveNet 要快400倍。其過程如圖3.2所示。

第一步是將字素轉換爲音素，利用一個簡單的音素字典，把每個句子直接轉換爲對應的音素；第二步是持續時間的預測，因爲音素應該基於上下文來決定它們或長或短的持續時間，另外，還需要做基本頻率預測，即圖中的F0。最後一步，就是合併音素、持續時間和頻率，得出輸出聲音。

4 結束語

人工智能領域現在十分火爆，越來越多的人投入到人工智能相關領域之中。在這幾天通過閱讀了多篇相關論文以及觀看了Andrew Ng（吳恩達）教授的機器學習視頻，使我對深度學習有了初步的瞭解。我認識到，未來深度學習在包括語音處理、圖像處理在內的多個領域都會有更加廣泛的發展，前景十分廣闊。通過寫這一篇綜述，我整理了自己的一些筆記，希望自己在三年研究生生活中沉下心來，努力鑽研，取得進步。

注：本綜述在撰寫過程中參考了多篇相關論文，在此對相關研究者表示一併感謝。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

深度學習及其在語音處理中的應用綜述

容器中nginx無法使用同一個網絡下的容器域名

Python: SunMoonTimeCalculator

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

NETCore中實現一個輕量無負擔的極簡任務調度ScheduleTask

docker使用特定的網絡

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

nodejs學習07——API

避免DbContext同時在多個線程調用

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

Leetocde必做100道題及個人做題解析

基於WebRTC的噪聲消除系統發佈第二個版本

《優化陣列信號處理》學習筆記（第四章）

WebRTC整體架構分析

我的博客即將入駐“雲棲社區”，誠邀技術同仁一同入駐。

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結