語音識別語料庫的建立與語料收集

語料庫,就是存放語言材料的地方。現代概念中的語料庫,是指存儲在計算機存儲器的原始語音或經過處理後代有語言學信息標註的語料文本。語料庫研究涉及自然語言文本的採集、存儲、加工和統計分析,目的是憑藉大規模語料庫提供客觀全面的數據支持語音識別系統的開發。

語音識別領域中,最關鍵一歩就是選擇適合的語料對其進行識別模型訓練,對語料的要求就是要儘可能地覆蓋所有的語音語言現象,且數據不能太稀疏。同時針對listensin在線學習的多業務場景,就要訓練多個模型,因此設計大詞彙量多屬性特徵的語料庫至關重要。

在大詞彙量連續語音識別系統中,爲了訓練魯棒性強的聲學模型,收集語料需要滿足以下幾條。第一就是要保證訓練語料庫能包括儘可能多的語言和語音現象,以避免出現聲學模型訓練數據稀疏的問題。第二是音素的覆蓋要全,是指在識別系統中的每一個最小識別單元都應該出現在所設計的語音語料中。要保證聲學模型訓練的精確,也可以要求識別系統中每一個最小的識別單元在語料中出現的次數要大於一定值。第三是音素要均衡,就是指每個音素單元在語料中出現的次數與別的音素單元相比較,不能出現太大偏差。合理的音素平衡能夠在確保音素覆蓋率的基礎上,有效地控制語音語料庫的規模。下面給出語料庫的設計需求和關鍵表的屬性:

核心需求

1).說話人信息的保存於維護。

2).語料文本,波形文件,標註文件的保存與更新。

3).訓練,測試數據的按需抽取與組合。

4).訓練模型的生成與保存。

關鍵表屬性

1).說話人信息的保存與維護。這類數據主要通過保存說話人的編號、姓名、性別、年齡、年級、英語水平、地域等信息來區分不同的說話人。

2).語料文本,波形文件,標註文件的保存與更新。語料文本這類數據主要通過語料標號、語料信息等各種方式保存文本語料。不同用戶可以通過查詢系統訪問這類數據。語音波形文件這類數據主要通過語音文件編號、語音錄製文本信息、錄製人的信息、語音文件存儲位置信息等方式進行保存。用戶錄音完成後,可以上傳本次錄音的波形文件,也可以通過整理上傳已有的波形文件,系統自動對該文件進行保存,用戶可以根據模型訓練需要抽取,組合不同的波形文件與標註文件完成訓練。標註文件這類數據主要通過標註編號、標註文件對應的波形文件信息、標註文件本身等方式來保存,用戶可以通過査詢找到相應的標註文件的數據。

3).訓練,測試數據的按需抽取與組合。主要是針對不同的業務場景訓練不同的識別模型,方便快速從數據庫中抽取訓練,測試數據集。

4).模型文件的生成與保存。將訓練以後的模型文件寫入數據庫保存。

ASR-CDB邏輯結構圖

                           

                                                                                       圖1 語料庫邏輯結構圖

維護擴張

隨着公司發展,勢必會對語音識別的要求更高。爲了方便以後很好的維護該數據庫,目前的設計提供如下擴展的接口:

1).當前設計時方便內部訓練模型使用,後期可以增加管理員信息表做成個完整的管理與用戶分開的DB管理系統。

2).隨着業務增長,該數據庫也可以增加用戶認證,語音採集,後臺錄音,數據保存等C/S架構的語料庫管理系統。

 

靈聲訊

整理於2019-03-01

加羣和關注公衆號請戳下面:

 

                                                                                                                  

                                                                                          

福利小貼士:

理科只是爲自己插上騰飛的翅膀,文科才能讓你飛黃騰達,同意的點贊,謝謝!

贈送原創詩歌公衆號“天一色”,以饗讀者!
 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章