Athena跑aishell數據集

Athena是端到端自動語音識別(ASR)引擎。當前,該項目支持基於 Connectionist Temporal Classification (CTC)的模型,基於transformer-basesd encoder-decoder model and Hybrid CTC/attention的模型的訓練和解碼,以及unsupervised pretraning。

下面我們基於Athena跑一下aishell數據集。

機器環境:
Ubuntu16.04 GPU GeForce RTX 2080
TensorFlow2.01 cuda10.2

1.設置虛擬環境
python -m venv venv_athena
source venv_athena/bin/activate
pip install --upgrade pip

2.安裝 Athena
git clone https://github.com/athena-team/athena.git
cd athena
pip install -r requirements.txt
python setup.py bdist_wheel sdist
python -m pip install --ignore-installed dist/athena-0.1.0*.whl
source tools/env.sh

3.數據準備。
到 http://www.openslr.org/33/上下載aishell數據集,這裏我用axel下載速度比較快。
axel -n 15 http://www.openslr.org/resources/33/data_aishell.tgz
下載完成。解壓存放asr目錄下面。
在這裏插入圖片描述
執行aishell腳本即可。
sh examples/asr/aishell/run.sh
注意:這裏的dataset_dir改爲存放aishell數據的目錄,由於我這機器只有一個GPU,所以屏蔽掉了分佈式工具horovod。
在這裏插入圖片描述
先跑pretraining 模型,再fine-tuning。
在這裏插入圖片描述
這裏設置batch_size爲16 num_epoch設置爲20。(由於機器內存不夠只能將batch設置小一點,否則會報內存溢出錯誤)
在這裏插入圖片描述
fine-tuning也設置batch_size爲16 num_epoch設置爲8。

跑了將近兩天才跑完整個訓練流程。
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章