本內容部分原創，因作者才疏學淺，偶有紕漏，望不吝指出。本內容由靈聲訊音頻-語音算法實驗室整理創作，轉載和使用請與“靈聲訊”聯繫，聯繫方式：音頻/識別/合成算法QQ羣（696554058）

語音識別概念

語音識別技術就是讓智能設備聽懂人類的語音。它是一門涉及數字信號處理、人工智能、語言學、數理統計學、聲學、情感學及心理學等多學科交叉的科學。這項技術可以提供比如自動客服、自動語音翻譯、命令控制、語音驗證碼等多項應用。近年來，隨着人工智能的興起，語音識別技術在理論和應用方面都取得大突破，開始從實驗室走向市場，已逐漸走進我們的日常生活。現在語音識別己用於許多領域，主要包括語音識別聽寫器、語音尋呼和答疑平臺、自主廣告平臺，智能客服等。

語音識別原理

語音識別的本質是一種基於語音特徵參數的模式識別，即通過學習，系統能夠把輸入的語音按一定模式進行分類，進而依據判定準則找出最佳匹配結果。目前，模式匹配原理已經被應用於大多數語音識別系統中。如圖1是基於模式匹配原理的語音識別系統框圖。

一般的模式識別包括預處理，特徵提取，模式匹配等基本模塊。如圖所示首先對輸入語音進行預處理，其中預處理包括分幀，加窗，預加重等。其次是特徵提取，因此選擇合適的特徵參數尤爲重要。常用的特徵參數包括：基音週期，共振峯，短時平均能量或幅度，線性預測係數（LPC），感知加權預測係數（PLP），短時平均過零率，線性預測倒譜系數（LPCC），自相關函數，梅爾倒譜系數（MFCC），小波變換系數，經驗模態分解係數（EMD），伽馬通濾波器係數（GFCC）等。在進行實際識別時，要對測試語音按訓練過程產生模板，最後根據失真判決準則進行識別。常用的失真判決準則有歐式距離，協方差矩陣與貝葉斯距離等。

圖1. 語音識別原理架圖

語音識別技術簡介

從語音識別算法的發展來看，語音識別技術主要分爲三大類，第一類是模型匹配法，包括矢量量化(VQ) 、動態時間規整(DTW)等；第二類是概率統計方法，包括高斯混合模型(GMM) 、隱馬爾科夫模型(HMM)等；第三類是辨別器分類方法，如支持向量機(SVM) 、人工神經網絡(ANN)和深度神經網絡（DNN）等以及多種組合方法。下面對主流的識別技術做簡單介紹：

1.動態時間規整（DTW）

語音識別中，由於語音信號的隨機性，即使同一個人發的同一個音，只要說話環境和情緒不同，時間長度也不盡相同，因此時間規整是必不可少的。DTW是一種將時間規整與距離測度有機結合的非線性規整技術，在語音識別時，需要把測試模板與參考模板進行實際比對和非線性伸縮，並依照某種距離測度選取距離最小的模板作爲識別結果輸出。動態時間規整技術的引入，將測試語音映射到標準語音時間軸上，使長短不等的兩個信號最後通過時間軸彎折達到一樣的時間長度，進而使得匹配差別最小，結合距離測度，得到測試語音與標準語音之間的距離。

2.支持向量機（SVM）

支持向量機是建立在VC維理論和結構風險最小理論基礎上的分類方法，它是根據有限樣本信息在模型複雜度與學習能力之間尋求最佳折中。從理論上說，SVM就是一個簡單的尋優過程，它解決了神經網絡算法中局部極值的問題，得到的是全局最優解。SVM已經成功地應用到語音識別中，並表現出良好的識別性能。

3.矢量量化（VQ）

矢量量化是一種廣泛應用於語音和圖像壓縮編碼等領域的重要信號壓縮技術，思想來自香農的率-失真理論。其基本原理是把每幀特徵矢量參數在多維空間中進行整體量化，在信息量損失較小的情況下對數據進行壓縮。因此，它不僅可以減小數據存儲，而且還能提高系統運行速度，保證語音編碼質量和壓縮效率，一般應用於小詞彙量的孤立詞語音識別系統。

4.隱馬爾科夫模型（HMM）

隱馬爾科夫模型是一種統計模型，目前多應用於語音信號處理領域。在該模型中，馬爾科夫(Markov)鏈中的一個狀態是否轉移到另一個狀態取決於狀態轉移概率，而某一狀態產生的觀察值取決於狀態生成概率。在進行語音識別時，HMM首先爲每個識別單元建立發聲模型，通過長時間訓練得到狀態轉移概率矩陣和輸出概率矩陣，在識別時根據狀態轉移過程中的最大概率進行判決。

5.高斯混合模型（GMM）

高斯混合模型是單一高斯概率密度函數的延伸，GMM能夠平滑地近似任意形狀的密度分佈。高斯混合模型種類有單高斯模型（Single Gaussian Model, SGM）和高斯混合模型（Gaussian Mixture Model, GMM）兩類。類似於聚類，根據高斯概率密度函數（Probability Density Function, PDF）參數不同，每一個高斯模型可以看作一種類別，輸入一個樣本x，即可通過PDF計算其值，然後通過一個閾值來判斷該樣本是否屬於高斯模型。很明顯，SGM適合於僅有兩類別問題的劃分，而GMM由於具有多個模型，劃分更爲精細，適用於多類別的劃分，可以應用於複雜對象建模。目前在語音識別領域，GMM需要和HMM一起構建完整的語音識別系統。

6.人工神經網絡（ANN/BP）

人工神經網絡由20世紀80年代末提出，其本質是一個基於生物神經系統的自適應非線性動力學系統，它旨在充分模擬神經系統執行任務的方式。如同人的大腦一樣，神經網絡是由相互聯繫、相互影響各自行爲的神經元構成，這些神經元也稱爲節點或處理單元。神經網絡通過大量節點來模仿人類神經元活動，並將所有節點連接成信息處理系統，以此來反映人腦功能的基本特性。儘管ANN模擬和抽象人腦功能很精準，但它畢竟是人工神經網絡，只是一種模擬生物感知特性的分佈式並行處理模型。ANN的獨特優點及其強大的分類能力和輸入輸出映射能力促成在許多領域被廣泛應用，特別在語音識別、圖像處理、指紋識別、計算機智能控制及專家系統等領域。但從當前語音識別系統來看，由於ANN對語音信號的時間動態特性描述不夠充分，大部分採用ANN與傳統識別算法相結合的系統。

7.深度神經網絡/深信度網絡-隱馬爾科夫（DNN/DBN-HMM）

當前諸如ANN，BP等多數分類的學習方法都是淺層結構算法，與深層算法相比存在侷限。尤其當樣本數據有限時，它們表徵複雜函數的能力明顯不足。深度學習可通過學習深層非線性網絡結構，實現複雜函數逼近，表徵輸入數據分佈式，並展現從少數樣本集中學習本質特徵的強大能力。在深度結構非凸目標代價函數中普遍存在的局部最小問題是訓練效果不理想的主要根源。爲了解決以上問題，提出基於深度神經網絡(DNN) 的非監督貪心逐層訓練算法，它利用空間相對關係減少參數數目以提高神經網絡的訓練性能。相比傳統的基於GMM-HMM的語音識別系統，其最大的改變是採用深度神經網絡替換GMM模型對語音的觀察概率進行建模。最初主流的深度神經網絡是最簡單的前饋型深度神經網絡（Feedforward Deep Neural Network，FDNN）。DNN相比GMM的優勢在於：1. 使用DNN估計HMM的狀態的後驗概率分佈不需要對語音數據分佈進行假設；2. DNN的輸入特徵可以是多種特徵的融合，包括離散或者連續的；3. DNN可以利用相鄰的語音幀所包含的結構信息。基於DNN-HMM識別系統的模型如圖2所示。

圖2 基於深度神經網絡的語音識別系統

8.循環神經網絡（RNN）

語音識別需要對波形進行加窗、分幀、提取特徵等預處理。訓練GMM時候，輸入特徵一般只能是單幀的信號，而對於DNN可以採用拼接幀作爲輸入，這些是DNN相比GMM可以獲得很大性能提升的關鍵因素。然而，語音是一種各幀之間具有很強相關性的複雜時變信號，這種相關性主要體現在說話時的協同發音現象上，往往前後好幾個字對我們正要說的字都有影響，也就是語音的各幀之間具有長時相關性。採用拼接幀的方式可以學到一定程度的上下文信息。但是由於DNN輸入的窗長是固定的，學習到的是固定輸入到輸入的映射關係，從而導致DNN對於時序信息的長時相關性的建模是較弱的。

圖3 DNN和RNN示意圖

考慮到語音信號的長時相關性，一個自然而然的想法是選用具有更強長時建模能力的神經網絡模型。於是，循環神經網絡（Recurrent Neural Network，RNN）近年來逐漸替代傳統的DNN成爲主流的語音識別建模方案。如圖3，相比前饋型神經網絡DNN，循環神經網絡在隱層上增加了一個反饋連接，也就是說，RNN隱層當前時刻的輸入有一部分是前一時刻的隱層輸出，這使得RNN可以通過循環反饋連接看到前面所有時刻的信息，這賦予了RNN記憶功能。這些特點使得RNN非常適合用於對時序信號的建模。

9.長短時記憶模塊（LSTM）

長短時記憶模塊 (Long-Short Term Memory，LSTM) 的引入解決了傳統簡單RNN梯度消失等問題，使得RNN框架可以在語音識別領域實用化並獲得了超越DNN的效果，目前已經使用在業界一些比較先進的語音系統中。除此之外，研究人員還在RNN的基礎上做了進一步改進工作，如圖4是當前語音識別中的主流RNN聲學模型框架，主要包含兩部分：深層雙向RNN和序列短時分類（Connectionist Temporal Classification，CTC）輸出層。其中雙向RNN對當前語音幀進行判斷時，不僅可以利用歷史的語音信息，還可以利用未來的語音信息，從而進行更加準確的決策；CTC使得訓練過程無需幀級別的標註，實現有效的“端對端”訓練。

圖4 基於RNN-CTC的主流語音識別系統框架

10.卷積神經網絡（CNN）

CNN早在2012年就被用於語音識別系統，並且一直以來都有很多研究人員積極投身於基於CNN的語音識別系統的研究，但始終沒有大的突破。最主要的原因是他們沒有突破傳統前饋神經網絡採用固定長度的幀拼接作爲輸入的思維定式，從而無法看到足夠長的語音上下文信息。另外一個缺陷是他們只是將CNN視作一種特徵提取器，因此所用的卷積層數很少，一般只有一到二層，這樣的卷積網絡表達能力十分有限。針對這些問題，提出了一種名爲深度全序列卷積神經網絡（Deep Fully Convolutional Neural Network，DFCNN）的語音識別框架，使用大量的卷積層直接對整句語音信號進行建模，更好地表達了語音的長時相關性。

DFCNN的結構如圖5所示，它直接將一句語音轉化成一張圖像作爲輸入，即先對每幀語音進行傅里葉變換，再將時間和頻率作爲圖像的兩個維度，然後通過非常多的卷積層和池化（pooling）層的組合，對整句語音進行建模，輸出單元直接與最終的識別結果比如音節或者漢字相對應。

圖5 DFCNN示意圖

識別技術的發展方向

更有效的序列到序列直接轉換的模型。序列到序列直接轉換的模型目前來講主要有兩個方向，一是CTC模型；二是Attention 模型。
雞尾酒會問題（遠場識別）。這個問題在近場麥克風並不明顯，這是因爲人聲的能量對比噪聲非常大，而在遠場識別系統上，信噪比下降得很厲害，所以這個問題就變得非常突出，成爲了一個非常關鍵、比較難解決的問題。雞尾酒會問題的主要困難在於標籤置換（Label Permutation），目前較好的解決方案有二，一是深度聚類（Deep Clustering）；二是置換不變訓練（Permutation invariant Training）。
持續預測與自適應模型。能否建造一個持續做預測並自適應的系統。它需要的特點一個是能夠非常快地做自適應並優化接下來的期望識別率。另一個是能發現頻度高的規律並把這些變成模型默認的一部分，不需要再做訓練。
前後端聯合優化。前端注重音頻質量提升，後端注重識別性能和效率提升。

參考文獻：

《解析深度學習：語音識別實踐》-------俞棟，鄧力著

《實用語音識別基礎》-------王炳錫，屈丹，彭煊著

《語音信號處理》--------趙力著

福利小貼士：

理科只是爲自己插上騰飛的翅膀，文科才能讓你飛黃騰達，同意的點贊，謝謝！

贈送原創詩歌公衆號“天一色”，以饗讀者！

語音識別技術簡述（概念->原理）

語音識別技術簡述（概念->原理）

語音識別概念

語音識別原理

語音識別技術簡介

1.動態時間規整（DTW）

2.支持向量機（SVM）

3.矢量量化（VQ）

4.隱馬爾科夫模型（HMM）

5.高斯混合模型（GMM）

6.人工神經網絡（ANN/BP）

7.深度神經網絡/深信度網絡-隱馬爾科夫（DNN/DBN-HMM）

8.循環神經網絡（RNN）

9.長短時記憶模塊（LSTM）

10.卷積神經網絡（CNN）

識別技術的發展方向

參考文獻：

詐騙（殺豬盤）網站進行滲透測試

Python 潮流週刊#50：我最喜歡的 Python 3.13 新特性！

【Python】保存gym截圖

【譯】使用 GitHub Copilot 作爲你的編碼 GPS

Linux 服務器配置-安裝portainer-ce社區版

外行也能讀懂的網絡硬件設備功能原理速成

語音信號處理領域國內外高手homepage分享(一)

語音信號處理領域國內外大師彙總(二)

語音情感識別

基於DTW的孤立詞語音識別系統（文檔+MATLAB+GUI）

基於CTC轉換器的自動拼寫校正端到端語音識別

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結