AISHELL -1數據集等語音數據集介紹

1. AISHELL數據集

總共178小時,400個人講,其中訓練集340個人,測試解20個人,驗證集40個人,每個人大概講三百多句話,每個人講的話都放在一個文件夾裏面。

AISHELL-2結構類似(1000個小時),不過總共1991人講,每個人有500句話,每個人講的話可能會有重複。

2. thchs-30數據集

thchs-30是清華大學公佈的超過三十個小時的數據集,選取1000句來錄音。

字段解釋:A(句子的ID是0~249),B(句子的ID是250~499),C(500~749),D(750~999)。ABC三組包括30個人的10893句發音,用來做訓練和驗證,D包括10個人的2496句發音,用來做測試。A2中的2表示編號爲2的人,A2~A32(中間有些數字欠缺)以此類推。A2_0.wav和A4_0.wav講的話其實是一樣的,只不過前者由編號爲2的人講,後者由編號爲4的人講。

3. Primewords Chinese Corpus Set 1

https://www.primewords.cn/ 

總計超過100小時的中文語音數據,由296個人講。數據集的各級目錄截圖如下:

每個文件夾下大約100-200個wav文件。同一文件夾的並不是同一個發音者。

transcript json文件情況如下

總共50902條語音數據,可以通過每個文件的前兩個字符找到wav所在的文件夾

4. ST-CMDS-20170001_1-OS

該數據集由北京衝浪科技公司開源,是一個很大的數據集的一個子集。共855個人講,每個人講120句話,總共855*120=10260句語音,每個語音分爲wav文件,metadata文件(文件描述)和txt(語音文字)文件,所以文件夾下面總共有10260*3=30780個文件(很粗暴)。

可以看到文件名中的P00001A字段就表示一個人的id,後面的四位表示這個人講的句子的id(估計是在1-120之間的一個數)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章