定製你的語音識別-並行語音識別解碼空間

原創

2020-02-21 01:35

這篇文章很不錯，希望對研究語音識別的你來說，很有用。轉載網址： http://djt.qq.com/article/view/507

自從智能手機的興起以及siri 推出以來，大量的語音識別相關的產品開始進入普通用戶的生活之中，像訊飛，騰訊，百度都推出了自己的語音產品。隨着不同生活背景不同層次的用戶越來越多，語音識別準確率始終是一個不得不說的傷心問題，老張家住在開新小區，每次用語音識別的時候都識別成開心小區，結果他變的很不開心。老王是個中藥迷，稀奇古怪的藥名連他小孫子都記不住，每次要和誰交流交流都得費勁的手動輸入，因爲語音識別總是很難準確完整的識別出來。正所謂衆口難調，光靠一個公用模型來解決廣大羣衆的各種需求是比較困難的，因此，爲了更好的適應廣大人民羣衆的各種需求，我們採用一種並行語音識別解碼系統。

　　圖1爲通用的語音識別解碼器框架，聲學模型我們採取的是隱馬爾可夫模型模型，其發射概率爲混合高斯矩陣。語言模型我們採用的是n-gram的方式。這裏聲學模型和語言模型都爲單一的一個模型。

圖1 通用的語音識別系統框架

　　這種方式爲目前通用的識別框架，爲了解決不同用戶不同的需求。我們將解碼器展開爲並行解碼空間。在這裏我們假設用戶的口音區別不大，主要區別在於具體說什麼內容，基於這個假設，我們保持聲學模型不變，生成不同垂直領域的語言模型。每個語言模型掛載到一個在線的解碼器上。通過競爭打分來實現最終的結果輸出。其框架如圖2 所示。

圖2 並行解碼空間的系框框架

　　相對通用的解碼系統，並行解碼空間系統主要增加了三個模塊：多路解碼空間&多路語言模型；競爭打分模塊，用戶主題預測。

　　多路解碼空間&多路語言模型。語言模型訓練一共分爲三個模塊，其中包括分類語料訓練模塊，模板語料訓練模塊，詞表語料訓練模塊三個模塊。具體步驟如下：

　　步驟一，根據分類的類別構建一組基礎分類詞典進，通過最大後向匹配算法挖掘以及中心詞計算的方法挖掘文本。對文本進行統計頻率排序。將高頻的文本作爲分類訓練樣本

　　步驟二，將挖到的文本構建文本分類器，用文本分類器在語料中挖掘高召回分值的句子。通過對句子進行詞頻統計，選擇tf-idf高的詞來擴充詞表。迭代第一步驟，當分類詞表不再擴充時，停止迭代，進入步驟三。

　　步驟三，根據步驟一，步驟二得到的分類詞表和分類語料。通過分類詞表在在分類語料中挖掘出模板，取高頻模板訓練模板分類模板語言模型，取分類語料訓練分類語言模型。根據詞表訓練詞表語言模型。

　　解碼器空間採用的是wfst（加權有限狀態機），將聲學模型，語言模型和詞典構建wfst網絡圖，並將其compose到一張wfst圖上，具體做法如圖三所示：

圖三 wfst 網絡構建框架圖

　　語言模型wfst中，通過將模板語言模型，詞表語言模型，分類語言模型的融合生成一張帶label的wfst圖。

表１

　　對錶1 左邊，我們按正常的語言模型訓練方式，輸入輸出都爲詞或者label，

　　表1 右邊，在每個詞的前面增加一個輸入變 label: eps 。通過這種方式將兩個語言模型組合在一起。如圖4所示

圖4

　　通過這種方法，降低了語言模型對語料的大小的需求，保證了一些不常出現的詞在wfst網格路徑中的出現頻度。

　　競爭打分模塊，我們採用聲學模型競爭、語言模型競爭、語義模型競爭三種方法

　　1) 聲學模型分數競爭，對N條備選路徑，進行最終置信度打分，其具體流程如下：

　　首先，用每一條備選路徑的識別結果進行強制對齊，之後可以計算得出相應的聲學模型置信度，基於聲學模型的置信度算法分爲兩個階段，音素級別的置信度計算如下式

和關鍵詞級別的置信度計算如下式：

2）語言模型分數

競爭

通過大語料的訓練獲取一個50G的大語言模型，通過該語言模型計算各路語音解碼器識別結果的ppl（困惑度）分數值。其公式如下

3）語義層面分數競爭，通過對語音識別結果的語音層面分析來計算打分結果

3.1 提取識別結果中心詞。這裏採用LSA訓練大規模語料計算語義距離矩陣。通過對識別結果進行分詞，計算每個詞之間的語義距離，選取和其他詞語語音距離最近的詞作爲中心詞。

3.2文本分類概率，通過計算識別文本在文本分類器中的概率來計算最終語音識別結果應該屬於某一路的概率。

　　用戶主題判定，根據用戶的歷史語音輸入記錄，我們通過主題建模，選擇相應的幾路語音識別解碼器來進行語音識別，並且根據用戶輸入習慣，對不同類別的解碼器給予不同的權重。

結論

　　經過測試，並行空間解碼器在垂直領域的測試集上有了較大提升。

前景

　　利用並行解碼空間，語音識別可以更好地支持多個垂直領域，涵蓋範圍包括地圖、音樂、遊戲等多個領域。同時也可以通過模板設計和特定領域語料訓練來針對特定的用戶和商家給予定製服務。

發佈了76 篇原創文章 · 獲贊 57 · 訪問量 76萬+

他的留言板關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

python 猿編程模塊（一）ybc_speech

python 猿編程模塊（一）ybc_speech 首先先安裝模塊 C:\Python36\python.exe -m pip install ybc-speech record:錄製音頻 def record(filename

2020-07-06 14:03:53

One-shot VC by Separating Speaker and Content Representations with Instance Normalization閱讀

會議：2019 interspeech 單位：國立臺灣大學作者：Ju-chieh Chou, Hung-yi Lee 過往有許多關於音色轉換的研究主要集中在並行語料集的基礎上的，已經能夠實現將一種的音色轉換成其多種其他人音色（例如訊飛留

2020-07-06 00:32:15

KL散度 L2正則粗略理解

信息熵可以表達數據的信息量大小；相對熵，又被稱爲KL散度或信息散度，是兩個概率分佈間差異的非對稱性度量在信息論中，相對熵等價於兩個概率分佈的信息熵的差值，若其中一個概率分佈爲真實分佈，另一個爲理論（擬合）分佈，則此時相對熵等於交叉熵

2020-07-05 23:54:57

語音數據集整理

語音數據集整理目錄 1.Mozilla Common Voice. 2 2.翻譯和口語音頻的大型數據庫Tatoeba. 2 3.VOiCES Dataset 3 4. LibriSpeech. 4 5.2000 HUB5 English

2020-07-05 23:54:57

感受野 ConvBank

ConvBank，用於擴大感受野，抓取長時信息感受野是卷積神經網絡裏面最重要的概念之一，爲了更好地理解卷積神經網絡結構，甚至自己設計卷積神經網絡，對於感受野的理解必不可少。感受野被定義爲卷積神經網絡特徵所能看到輸入圖像的區域，

2020-07-05 23:54:57

kaldi utils/filter_scp.pl腳本解釋

kaldi utils/filter_scp.pl腳本解釋1 用法2 中文解釋3 作用4 注意 1 用法 # This script takes a list of utterance-ids or any file whose

2020-07-04 02:19:45

Kaldi腳本utils/int2sym.pl解釋

Kaldi腳本utils/int2sym.pl解釋1 用法2 中文解釋3 使用案例 1 用法 utils/int2sym.pl -f 2:10000 phones.txt 2 中文解釋輸入參數【-f】將上一層管道流中的第2列到

2020-07-04 02:19:45

語音識別之kaldi

最近一直在折騰kaldi，在這個龐大的系統面前，自己是那麼的微小。由於數據庫的原因，我只能運行kaldi所給例子的一部分。下面就來說說最近的進展吧。第一個例子就是yesno這個例子。由於提供數據，而且數據比較小，可以非常容易的

2020-07-01 00:29:38

語音識別之聲學模型

https://blog.csdn.net/wja8a45TJ1Xa/article/details/78712930

2020-07-01 00:29:38

AISHELL -1數據集等語音數據集介紹

1. AISHELL數據集總共178小時，400個人講，其中訓練集340個人，測試解20個人，驗證集40個人，每個人大概講三百多句話，每個人講的話都放在一個文件夾裏面。 AISHELL-2結構類似（1000個小時），不過總共1991人

2020-06-30 14:45:09

iOS編程技巧總結之語音篇-- OpenEars框架及其使用2

繼續上面的內容。 5. 如何在自己的應用中添加離線語音識別功能看了OpenEarsSampleApp這個示例項目後，其實基本上已經大概瞭解瞭如何在應用中添加離線語音識別功能，不過這裏還是要大概總結下一些基本的步驟（具體的操作完全可

2020-06-29 17:43:01

iOS編程技巧總結之語音篇-- OpenEars框架及其使用1

1.什麼是OpenEars OpenEars是面向iOS平臺的一個離線的語音識別和text-to-speech（文字語音轉換）開發工具包。因爲是離線的，它無需象Siri那樣需要和服務器進行網絡連接。當然，還要強調一點的是，OpenE

2020-06-29 17:43:01

UE4原生內置多人語音聊天

一.創建會話 1.創建創建服務器和加入服務器的UI 2.實現創建會話和加入會話的功能（1）創建會話功能（2）加入會話功能二.配置文件設置 1.DefaultEngine.ini文

2020-06-29 02:55:07

IOS10 系統自帶的語音識別功能

前奏：　　iOS 10 出來之後，我們開發者也可以使用類似Siri的功能。它是使用Siri裏面的一個語音識別框架Speech framework來處理siri的。現在，讓我們來看看一些主要的代碼吧。我們需要一個 UITe

2020-06-28 19:07:42

java 將文字轉換成音頻

該方法僅限於windows下運行！首先要在電腦安裝語音包 SpeechSDK51 首先要藉助第三方 TTSAPP.exe 軟件將存放文字的.txt轉換成音頻文件 TTSAPP.exe的轉換格式爲 TTSAPP.EXE 漢字文件路徑

2020-06-28 05:59:10

24小時熱門文章

最新文章

最新評論文章