語音識別之發音字典

原創

lujian1989

2018-08-22 09:51

1. 概念

　　發音字典(lexicon)包含了從單詞(words)到音素(phones)之間的映射，作用是用來連接聲學模型和語言模型的。

　　發音字典在語音識別過程中的位置如圖所示：

　　發音字典包含系統所能處理的單詞的集合，並標明瞭其發音。通過發音字典得到聲學模型的建模單元和語言模型建模單元間的映射關係，從而把聲學模型和語言模型連接起來，組成一個搜索的狀態空間用於解碼器進行解碼工作。
　　

２. 字典生成

　　以下過程僅適用於中文語音識別的發音字典。

2.1 拼音-音素的映射

　　首先需要確定的是拼音到音素的轉換規則/映射關係。　
　　可以有不同的映射關係，如漢字一的拼音 “yi1”可以對應 “ii i1”，也可以對應 “y i1”（前者是清華語音識別使用的規則）。
　　不同的映射關係會產生不同的識別效果。

2.2 中文詞-拼音的映射

　　需要列出儘可能多的中文詞及其對應的拼音，有多音字的可列出其不同組合。

2.3 g2p工具實現

　　通過以上兩個步驟即可實現中文詞-音素的轉換，也就是G2P（Grapheme-to-Phoneme Conversion）。
　　通過腳本可實現輸入中文詞，輸出對應音素的功能。

2.4 收集中文詞

　　發音字典需要覆蓋儘可能多的詞－音素。
　　可以通過之前的文章構建語言模型（二）：模型訓練與評估中的方式，將分詞後的文本語料統計各單詞及其詞頻，去掉低頻詞與過長的詞，得到中文詞表。

2.5 生成詞典

　　將中文詞表作爲輸入，通過g2p工具即可得到詞-音素的映射，也就是發音詞典。

3. 參考文章

What is G2P? http://www.voxforge.org/home/docs/faq/faq/what-is-g2p
語音識別技術簡介http://blog.csdn.net/rfc2008/article/details/9151755?utm_source=tuicool&utm_medium=referral

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

語音識別之發音字典

1. 概念

２. 字典生成

2.1 拼音-音素的映射

2.2 中文詞-拼音的映射

2.3 g2p工具實現

2.4 收集中文詞

2.5 生成詞典

3. 參考文章

[轉帖]使用NMT和pmap解決JVM資源泄漏問題原創

Python實現大麥網搶票的四大關鍵技術點解析

Python 安裝庫指令大全

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

2020年上半年數據庫系統工程師考試

基於 Milvus + LlamaIndex 實現高級 RAG

【2024-05-21】以茶會友

ICASSP2020中語音合成部分論文閱讀（未完待續）

【論文翻譯】通過梅爾頻譜預測來訓練WaveNet的自然語音合成

Tensorflow遷移學習加載預訓練模型並修改變量shape和value的方法

Linux xargs命令的理解和使用

集羣個人用戶離線複製管理Python環境的一些問題

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結