原创 kaldi中修改phones中音素個數

在工程項目中,有一天項目組說我們做語音評測的不需要這麼多音素來表示,我們的產品英語語音評測是參考libirispeech中的腳本來修改的,默認是有360多個音素來表示的,查看phones.txt文件中,發現實際上音素包含有位置信息

原创 Athena跑aidatatang數據集

Aidatatang數據集介紹 Aidatatang_200zh免費中文普通話語料庫,語料庫包含200個小時的聲學數據,來自中國不同口音領域的600位演講者被邀請參加錄製。 機器環境: Ubuntu16.04 GPU GeForc

原创 kaldi中使用PyTorch訓練模型

Daniel Povey 去年年末在小米開發者大會上說要打造下一代kaldi。 目前官方網站上已經有一些進展,已經使用pybind11將Python接口添加到Kaldi中,在pybind11分支中。 目前 Kaldi Pybin

原创 Kaldi中語音數據增強方法

在實際應用中,有時候數據不是很多,可以用數據增強方式 擴展數據,在小的數據集上效果比較明顯。 語音數據增強主要有以下幾種方式: 音速擾動sp utils/data/perturb_data_dir_speed_3way.sh 音量

原创 ubuntu上安裝kaldi

首先下載kaldi。 安裝環境 Ubuntu16.04 系統 git clone https://github.com/kaldi-asr/kaldi 下載完成後進入tools目錄。 執行 extras/check_depende

原创 英語口語語音評測方法

語音評測目前主要有以下兩種方案: 1.GOP(Goodness of Pronunciation); 2.MDD; 目前國內的語音評測算法大部分基於GOP(Goodness of Pronunciation)或者以此爲基礎來評測發

原创 Tacotron2語音合成

Tacotron2是由Google Brain提出來的一個語音合成框架. 模型架構: 機器環境: 在Ubuntu16.04 Ubuntu16.04 GPU GeForce RTX 2080(單個GPU) TensorFlow1.

原创 PhoneGap環境搭建(android平臺)

      PhoneGap是能夠讓你用普通的web技術編寫出能夠輕鬆調用API接口和進入應用商店的HTML5應用開發平臺。是唯一的一個支持7個平臺的開源移動框架。這裏以安卓爲例搭建開發環境。 1. 搭建安卓開發環境。(本文用的and

原创 ubuntu上安裝ESPnet

ESPnet是一個端到端的語音處理工具,主要側重於端到端語音識別和端到端語音合成。ESPnet使用chainer和pytorch爲主深度學習引擎,同時也遵循Kaldi風格的數據處理、特徵提取格式。 機器環境: Ubuntu16.0

原创 ubuntu上kaldi安裝

首先下載kaldi。 安裝環境 Ubuntu16.04 系統 git clone https://github.com/kaldi-asr/kaldi 下載完成後進入tools目錄。 執行 extras/check_depende

原创 一種基於GOP改進的口語語音評測算法

最近在看語音評測的算法,看到2019年INTERSPEECH 2019 的的一篇paper。這篇主要是研究了 HMM transition probabilities對語音評測的影響。 測試後發現還是比原來的GOP語音評測算法有

原创 Athena跑aishell數據集

Athena是端到端自動語音識別(ASR)引擎。當前,該項目支持基於 Connectionist Temporal Classification (CTC)的模型,基於transformer-basesd encoder-deco

原创 Ubuntu上Kaldi跑librispeech數據集步驟

Kaldi跑librispeech步驟 步驟分爲數據準備跟訓練模型。 kaldi環境默認是安裝好的,這裏不詳細說明kaldi的安裝步驟。 這裏的實驗是在Ubuntu16.04上跑的。 一、數據準備 數據準備分爲兩種:手動下載跟腳本

原创 kaldi中使用遷移學習進行模型訓練

在我們學習語音識別過程中,我們可能沒有那麼多語音語料又想在自己的數據集上效果要好一點怎麼辦? 辦法是有,我們可以採用別人訓練出來的模型進行遷移學習。那麼在kaldi中如何遷移學習呢? 在kaldi中實際上很方便簡單,只要在 l