AISHELL -1数据集等语音数据集介绍

原創

2020-06-30 14:45

1. AISHELL数据集

总共178小时，400个人讲，其中训练集340个人，测试解20个人，验证集40个人，每个人大概讲三百多句话，每个人讲的话都放在一个文件夹里面。

AISHELL-2结构类似（1000个小时），不过总共1991人讲，每个人有500句话，每个人讲的话可能会有重复。

2. thchs-30数据集

thchs-30是清华大学公布的超过三十个小时的数据集，选取1000句来录音。

字段解释：A（句子的ID是0~249），B（句子的ID是250~499），C（500~749），D（750~999）。ABC三组包括30个人的10893句发音，用来做训练和验证，D包括10个人的2496句发音，用来做测试。A2中的2表示编号为2的人，A2~A32（中间有些数字欠缺）以此类推。A2_0.wav和A4_0.wav讲的话其实是一样的，只不过前者由编号为2的人讲，后者由编号为4的人讲。

3. Primewords Chinese Corpus Set 1

https://www.primewords.cn/

总计超过100小时的中文语音数据，由296个人讲。数据集的各级目录截图如下：

每个文件夹下大约100-200个wav文件。同一文件夹的并不是同一个发音者。

transcript json文件情况如下

总共50902条语音数据，可以通过每个文件的前两个字符找到wav所在的文件夹

4. ST-CMDS-20170001_1-OS

该数据集由北京冲浪科技公司开源，是一个很大的数据集的一个子集。共855个人讲，每个人讲120句话，总共855*120=10260句语音，每个语音分为wav文件，metadata文件（文件描述）和txt（语音文字）文件，所以文件夹下面总共有10260*3=30780个文件（很粗暴）。

可以看到文件名中的P00001A字段就表示一个人的id，后面的四位表示这个人讲的句子的id（估计是在1-120之间的一个数）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

AISHELL -1数据集等语音数据集介绍

1. AISHELL数据集

2. thchs-30数据集

3. Primewords Chinese Corpus Set 1

4. ST-CMDS-20170001_1-OS

[软件工具百科] 互联网资源历史快照归档站点与数字图书馆

网易面试：SpringBoot如何开启虚拟线程？

杭州的 IT 崩盘了么？

程序员常见的文本查看工具

VS2022 解决方案打不开 .NET Framework 4.0 、 4.5 等老项目

Vue3 运行可以，build 打包发布报错，app.config.globalProperties 用法坑

既然测试也要求写代码，那干脆让开发兼任测试不就好了吗？

ITSM落地经验之建设蓝图规划

PDF 补丁丁 1.0.2 版更新

奇怪！应用的日志呢？？

目標檢測map理解

C++求組合數代碼

快排的穩定性思考

C++11多線程異步操作std::future

C++ vector按照位置刪除元素、插入元素

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結