1. AISHELL數據集
總共178小時,400個人講,其中訓練集340個人,測試解20個人,驗證集40個人,每個人大概講三百多句話,每個人講的話都放在一個文件夾裏面。
AISHELL-2結構類似(1000個小時),不過總共1991人講,每個人有500句話,每個人講的話可能會有重複。
2. thchs-30數據集
thchs-30是清華大學公佈的超過三十個小時的數據集,選取1000句來錄音。
字段解釋:A(句子的ID是0~249),B(句子的ID是250~499),C(500~749),D(750~999)。ABC三組包括30個人的10893句發音,用來做訓練和驗證,D包括10個人的2496句發音,用來做測試。A2中的2表示編號爲2的人,A2~A32(中間有些數字欠缺)以此類推。A2_0.wav和A4_0.wav講的話其實是一樣的,只不過前者由編號爲2的人講,後者由編號爲4的人講。
3. Primewords Chinese Corpus Set 1
總計超過100小時的中文語音數據,由296個人講。數據集的各級目錄截圖如下:
每個文件夾下大約100-200個wav文件。同一文件夾的並不是同一個發音者。
transcript json文件情況如下
總共50902條語音數據,可以通過每個文件的前兩個字符找到wav所在的文件夾
4. ST-CMDS-20170001_1-OS
該數據集由北京衝浪科技公司開源,是一個很大的數據集的一個子集。共855個人講,每個人講120句話,總共855*120=10260句語音,每個語音分爲wav文件,metadata文件(文件描述)和txt(語音文字)文件,所以文件夾下面總共有10260*3=30780個文件(很粗暴)。
可以看到文件名中的P00001A字段就表示一個人的id,後面的四位表示這個人講的句子的id(估計是在1-120之間的一個數)