《語音信號處理》 語音識別章節 讀書筆記

兩本書,《語音信號處理》趙力編和《語音信號處理》韓紀慶編。強烈推薦韓紀慶版本,知識點很全面,可以作爲語音識別的入門中文書籍,章節很也短,很快就入門了。

P34
HMM是一個雙內嵌式隨機過程,由兩個隨機過程組成:
一個是狀態轉移序列,對應單純markov過程;另一個是每次轉移時輸出的符號組成的符號序列。(這個也是隨機的,理解爲 不知道狀態序列,也不知道輸出符號序列。。。)
在這裏插入圖片描述

在這裏插入圖片描述
在這裏插入圖片描述

在這裏插入圖片描述

在這裏插入圖片描述
在這裏插入圖片描述

語音信號處理(第二版)韓紀慶編

P178
BW算法,重估算法證明

在這裏插入圖片描述
重估算法
在這裏插入圖片描述

引入GMM:在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
GMM: (韓紀慶版 P184)
k:第k個高斯分佈
在這裏插入圖片描述
在這裏插入圖片描述

P130:
模板(模型)Mi,即 i 單詞的均值和協方差矩陣。

P135:
語音信號的特徵矢量序列的集合作爲觀察值序列O = O1,O2,…OT

P136:
聲學模型和語言模型時單獨訓練的,所以要怎麼把基於語言模型的句法約束結合進連續語言識別呢?較好的方法應該是實現幀同步的語音-語言處理的統合。一般採用的方法是把聲學模型和語言模型結合在一個有限狀態自動機的框架進行處理。
在這裏插入圖片描述
2019.4.7

似然度:就是條件概率

離散hmm:參數B是一個概率矩陣;
連續hmm:所有狀態上的觀察概率密度函數共同形成了參數B。(每個狀態的分佈是gmm)。

  1. 克服訓練數據的不足:

將一個訓練較充分,但細節較差(把一些出現次數很少的觀察值概率爲0)和一個訓練不充分,但細節較好的模型進行混合。
新的模型參數:
在這裏插入圖片描述

刪插平滑法(deleted interpolartion)
在這裏插入圖片描述
bjk爲模型狀態j對應的觀察值概率。

怎麼估計權值w呢?。。取決於各個狀態上當前訓練序列的數目佔全部訓練序列數目的比例。
在訓練各個HMM時,除了保存模型參數之外,還應保存相應的狀態數目。
在這裏插入圖片描述
2. 處理說話人的影響
3. 基於最大互信息的HMM
4. 考慮狀態駐留時間的HMM(三音素?)
引入一個 在狀態 i 上相繼產生d個觀察值的概率爲:
在這裏插入圖片描述
這個概率值pi(d)描述了狀態i的駐留時間(state duration),非指數分佈。

連接詞識別

P190
連接詞識別:系統存儲的HMM是針對孤立詞的,但是識別的語音卻是由這些詞構成的詞串。
包括數字串、拼寫的字母串等。

  • 二階動態規劃
  • 分層構築方法
大詞表連續語音識別

P197
需要處理的問題:

  1. 切分
    可以採用的方法:能量最低點最爲邊界,還要根據發音信息加以驗證;
  2. 發音變化
    協同發音的影響。

字典:描述每一個詞條是如何用音子串接而成的。
HMM模型中最基本的構成單位是狀態及狀態之間的轉移弧。

聲學模型中的三音素

考慮一個音素與其左和右相鄰音素的相關情況後選取的基元,稱爲三音素triphone。

聲韻組合的兩種形式:前聲後韻、前韻後聲。22個聲母、38個韻母。。。。
出現的可能種類還是很多,有些可能出現的次數很少的。
一般應該保證每個三音素在訓練數據中出現的次數不少於10次,如果出現次數過少,則不能保證模型的準確性,這稱爲訓練數據稀疏。

解決三音素訓練數據稀疏問題的方法:根據一些準則對上下文相關的音素進行聚類,並根據聚類進行狀態共享(同一類的使用同一個狀態)。

常見的狀態共享方法:

  1. 基於數據驅動
  2. 基於決策樹

基於決策樹的狀態共享策略:l+c+r/env,左相關信息+中心基元+右相關信息,env該位置環境特徵(包括前接/當前/後接音節聲調、…字數、…詞性、…長度等)

決策樹分類依賴於問題集的設計,爲了定義問題集,應先確認劃分特徵,包含:發音相似性和基元的上下文相關信息。(根據劃分特徵定義決策樹的問題集)

建立問題集後,就可以構建決策樹,構造決策樹的方法:

  1. 中心基元。對每個中心基元的每個狀態分別構造決策樹,中心基元相同的歸位一類,再決策。
  2. 同一狀態。對所有基元的同一狀態構造決策樹。
    在這裏插入圖片描述
    決策樹評估函數用來估計決策樹的結點上的樣本相似性。可以選擇對數似然概率作爲結點分裂的評估函數。從問題集中選擇一個問題,根據此問題把結點分成兩個子結點,並且計算評估函數的增量,可以選擇具有最大增量的問題,並且根據此問題把結點分成兩部分。當所有問題的增量都低於某個閾值的時候,結點上的分裂過程將停止。同一個葉子結點中的狀態將被共享捆綁到一起。
基於子詞單元的HMM訓練 (分段、切分、詞邊界)

在這裏插入圖片描述

Ngram語言模型

P206
語言模型分爲基於文法的語言模型(現在很少人用了)和基於統計的語言模型。

2gram中,爲了使P(wi|wi-1)在i=1時有意義,一般會在整個句子前面家一個特殊標識<s>,這樣可以假設w0=<s>。爲了使的字符串整體的概率爲1,在整個句子的結尾也需要加上特殊標識</s>
在這裏插入圖片描述
在這裏插入圖片描述
C(W)是詞串W在訓練數據中出現的次數。

  • 規則聚類
  • 平滑技術
大詞表連續語音識別中的解碼技術

搜索過程中的路徑擴展方式,可以分爲1.基於詞;2. 基於時間。

圖的基本搜索算法:
OPEN表、CLOSE表
1. A*搜索
代價的概念。 f(N) = g(N)+h(N)
f(N)是結點N的估價函數,g(N)是在搜索空間中從初始結點到N結點的實際代價,h(N)是從N到目標結點最佳路徑的估計代價。
2. Beam搜索
這部分看不太懂,要再看。

面向語音識別的搜索算法(decoder解碼用到)
  1. Viterbi Beam 搜索算法
  2. 令牌傳遞模型 token passing
  3. 基於前向搜索後向回溯的N-best算法(Viterbi+A*)
大詞表連續語音識別後處理技術

語音識別中間結果的表示形式。
識別結果的三種結構形式分別是:
1. One-best
2. N-best
3. Lattice

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章