AISHELL -1数据集等语音数据集介绍

1. AISHELL数据集

总共178小时,400个人讲,其中训练集340个人,测试解20个人,验证集40个人,每个人大概讲三百多句话,每个人讲的话都放在一个文件夹里面。

AISHELL-2结构类似(1000个小时),不过总共1991人讲,每个人有500句话,每个人讲的话可能会有重复。

2. thchs-30数据集

thchs-30是清华大学公布的超过三十个小时的数据集,选取1000句来录音。

字段解释:A(句子的ID是0~249),B(句子的ID是250~499),C(500~749),D(750~999)。ABC三组包括30个人的10893句发音,用来做训练和验证,D包括10个人的2496句发音,用来做测试。A2中的2表示编号为2的人,A2~A32(中间有些数字欠缺)以此类推。A2_0.wav和A4_0.wav讲的话其实是一样的,只不过前者由编号为2的人讲,后者由编号为4的人讲。

3. Primewords Chinese Corpus Set 1

https://www.primewords.cn/ 

总计超过100小时的中文语音数据,由296个人讲。数据集的各级目录截图如下:

每个文件夹下大约100-200个wav文件。同一文件夹的并不是同一个发音者。

transcript json文件情况如下

总共50902条语音数据,可以通过每个文件的前两个字符找到wav所在的文件夹

4. ST-CMDS-20170001_1-OS

该数据集由北京冲浪科技公司开源,是一个很大的数据集的一个子集。共855个人讲,每个人讲120句话,总共855*120=10260句语音,每个语音分为wav文件,metadata文件(文件描述)和txt(语音文字)文件,所以文件夹下面总共有10260*3=30780个文件(很粗暴)。

可以看到文件名中的P00001A字段就表示一个人的id,后面的四位表示这个人讲的句子的id(估计是在1-120之间的一个数)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章