台部落cheetah

在工程項目中，有一天項目組說我們做語音評測的不需要這麼多音素來表示，我們的產品英語語音評測是參考libirispeech中的腳本來修改的，默認是有360多個音素來表示的，查看phones.txt文件中，發現實際上音素包含有位置信息

2020-06-24 03:52:21

Aidatatang數據集介紹 Aidatatang_200zh免費中文普通話語料庫，語料庫包含200個小時的聲學數據，來自中國不同口音領域的600位演講者被邀請參加錄製。機器環境： Ubuntu16.04 GPU GeForc

2020-06-24 03:52:21

Daniel Povey 去年年末在小米開發者大會上說要打造下一代kaldi。目前官方網站上已經有一些進展，已經使用pybind11將Python接口添加到Kaldi中，在pybind11分支中。目前 Kaldi Pybin

2020-06-24 03:52:21

在實際應用中，有時候數據不是很多，可以用數據增強方式擴展數據，在小的數據集上效果比較明顯。語音數據增強主要有以下幾種方式：音速擾動sp utils/data/perturb_data_dir_speed_3way.sh 音量

2020-06-24 03:52:21

首先下載kaldi。安裝環境 Ubuntu16.04 系統 git clone https://github.com/kaldi-asr/kaldi 下載完成後進入tools目錄。執行 extras/check_depende

2020-06-24 03:52:21

語音評測目前主要有以下兩種方案： 1.GOP(Goodness of Pronunciation)； 2.MDD；目前國內的語音評測算法大部分基於GOP(Goodness of Pronunciation)或者以此爲基礎來評測發

2020-06-24 03:52:21

Tacotron2是由Google Brain提出來的一個語音合成框架. 模型架構：機器環境：在Ubuntu16.04 Ubuntu16.04 GPU GeForce RTX 2080（單個GPU） TensorFlow1.

2020-06-16 14:12:32

PhoneGap是能夠讓你用普通的web技術編寫出能夠輕鬆調用API接口和進入應用商店的HTML5應用開發平臺。是唯一的一個支持7個平臺的開源移動框架。這裏以安卓爲例搭建開發環境。 1. 搭建安卓開發環境。（本文用的and

2020-06-08 11:34:49

ESPnet是一個端到端的語音處理工具，主要側重於端到端語音識別和端到端語音合成。ESPnet使用chainer和pytorch爲主深度學習引擎，同時也遵循Kaldi風格的數據處理、特徵提取格式。機器環境： Ubuntu16.0

2020-05-22 13:41:06

首先下載kaldi。安裝環境 Ubuntu16.04 系統 git clone https://github.com/kaldi-asr/kaldi 下載完成後進入tools目錄。執行 extras/check_depende

2020-05-18 06:24:21

最近在看語音評測的算法，看到2019年INTERSPEECH 2019 的的一篇paper。這篇主要是研究了 HMM transition probabilities對語音評測的影響。測試後發現還是比原來的GOP語音評測算法有

2020-04-18 16:45:39

Athena是端到端自動語音識別（ASR）引擎。當前，該項目支持基於 Connectionist Temporal Classification (CTC)的模型，基於transformer-basesd encoder-deco

2020-04-11 21:19:16

Kaldi跑librispeech步驟步驟分爲數據準備跟訓練模型。 kaldi環境默認是安裝好的，這裏不詳細說明kaldi的安裝步驟。這裏的實驗是在Ubuntu16.04上跑的。一、數據準備數據準備分爲兩種：手動下載跟腳本

2020-03-26 08:17:42

在我們學習語音識別過程中，我們可能沒有那麼多語音語料又想在自己的數據集上效果要好一點怎麼辦？辦法是有，我們可以採用別人訓練出來的模型進行遷移學習。那麼在kaldi中如何遷移學習呢？在kaldi中實際上很方便簡單，只要在 l

2020-03-21 07:33:06