AISHELL -1數據集等語音數據集介紹

原創

2020-06-30 14:45

1. AISHELL數據集

總共178小時，400個人講，其中訓練集340個人，測試解20個人，驗證集40個人，每個人大概講三百多句話，每個人講的話都放在一個文件夾裏面。

AISHELL-2結構類似（1000個小時），不過總共1991人講，每個人有500句話，每個人講的話可能會有重複。

2. thchs-30數據集

thchs-30是清華大學公佈的超過三十個小時的數據集，選取1000句來錄音。

字段解釋：A（句子的ID是0~249），B（句子的ID是250~499），C（500~749），D（750~999）。ABC三組包括30個人的10893句發音，用來做訓練和驗證，D包括10個人的2496句發音，用來做測試。A2中的2表示編號爲2的人，A2~A32（中間有些數字欠缺）以此類推。A2_0.wav和A4_0.wav講的話其實是一樣的，只不過前者由編號爲2的人講，後者由編號爲4的人講。

3. Primewords Chinese Corpus Set 1

https://www.primewords.cn/

總計超過100小時的中文語音數據，由296個人講。數據集的各級目錄截圖如下：

每個文件夾下大約100-200個wav文件。同一文件夾的並不是同一個發音者。

transcript json文件情況如下

總共50902條語音數據，可以通過每個文件的前兩個字符找到wav所在的文件夾

4. ST-CMDS-20170001_1-OS

該數據集由北京衝浪科技公司開源，是一個很大的數據集的一個子集。共855個人講，每個人講120句話，總共855*120=10260句語音，每個語音分爲wav文件，metadata文件（文件描述）和txt（語音文字）文件，所以文件夾下面總共有10260*3=30780個文件（很粗暴）。

可以看到文件名中的P00001A字段就表示一個人的id，後面的四位表示這個人講的句子的id（估計是在1-120之間的一個數）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

AISHELL -1數據集等語音數據集介紹

1. AISHELL數據集

2. thchs-30數據集

3. Primewords Chinese Corpus Set 1

4. ST-CMDS-20170001_1-OS

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

Garnet：微軟官方基於.NET開源的高性能分佈式緩存存儲數據庫

Flink執行圖

Java響應式編程

評估統計算法在銀行僞造鈔票檢測中的價值

nodejs學習06——小案例

目標檢測map理解

C++求組合數代碼

快排的穩定性思考

C++11多線程異步操作std::future

C++ vector按照位置刪除元素、插入元素

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結