語音數據集整理

【多種語言】

1.Mozilla Common Voice

1）基本信息

時長：1965小時（暫時）

最早2017年發佈，持續更新，該基金會表示，通過 Common Voice 網站和移動應用，他們正在積極開展 70 種語言的數據收集工作。

Mozilla 宣稱其擁有可供使用的最大的人類語音數據集，當前數據集有包括 29 種不同的語言,其中包括漢語，從 4萬多名貢獻者那裏收集了近 2454 小時（其中1965小時已驗證）的錄音語音數據。並且做出了開放的承諾：向初創公司、研究人員以及對語音技術感興趣的任何人公開我們收集到的高質量語音數據。

2）數據集特點

Common Voice數據集不僅在其大小和許可模型（https://github.com/JRMeyer/open-speech-corpora）方面是獨一無二的，而且在其多樣性上也是獨一無二的。它代表了一個由語音貢獻者組成的全球社區。貢獻者可以選擇提供諸如他們的年齡、性別和口音等統計元數據，這樣他們的語音片段就會被標記上在訓練語音引擎中有用的信息。這是一種不同於其他可公開獲取的數據集的方法，這些數據集要麼是手工製作的多樣性數據集(即男性和女性數量相等)，要麼是語料庫與“已發現”的數據集一樣的多樣性數據集(例如，TED演講中的TEDLIUM語料庫是男性和女性的3倍)。

3）鏈接

下載地址：https://voice.mozilla.org/data

參考：https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/88266146

2.翻譯和口語音頻的大型數據庫Tatoeba

1）基本信息

項目始於2006年

tatoeba是一個用於語言學習的句子、翻譯和口語音頻的大型數據庫。，收集面向外語學習者的例句的網站，用戶無須註冊便可以搜索任何單詞的例句。如果例句含有對應的真人發音，也可以點擊收聽。註冊用戶可以添加、翻譯、接管、改進、討論句子。還可以在留言板上和其他註冊用戶討論。在留言板上，所有的語言都是平等的，註冊用戶可以使用自己喜歡的語言與其他用戶交流。

3）鏈接

下載地址：

https://tatoeba.org/eng/downloads

【英語】

3.VOiCES Dataset

1）基本信息

發佈時間：2018年

時長：總共15小時（3903個音頻文件）

參與人數：300人

這個數據集是在複雜的環境設置（聲音）語料庫掩蓋的聲音呈現在聲學挑戰性條件下的音頻記錄。錄音發生在不同大小的真實房間中，捕捉每個房間的不同背景和混響輪廓。各種類型的干擾器噪聲（電視，音樂，或潺潺聲）同時播放乾淨的講話。在房間內精心佈置的12個麥克風在遠處錄製音頻，每個麥克風產生120小時的音頻。爲了模仿談話中的人類行爲，前景揚聲器使用電動平臺，在記錄期間旋轉一系列角度。

三百個不同的揚聲器從LibriSpeech的“乾淨”的數據子集被選擇作爲源音頻，確保50-50女性男性分組。在準備即將到來的數據挑戰時，語音語料庫的第一次發佈將只包括200個發言者。剩下的100個發言者將被保留用於模型驗證；一旦數據挑戰賽被關閉，完整的語料庫（300個發言者）將被釋放。除了完整的數據集之外，我們還提供了一個DEV集合和一個迷你DEV集合。兩者都保持了語音語料庫的數據結構，但都包含了一小部分數據。DEV集包括四個隨機選擇的揚聲器（50-50個女性男性分組）的音頻文件，用於ROM-1中記錄的數據。這包括所有12個麥克風的數據。迷你開發套件僅包括一個揚聲器、一個房間（1號房間）和錄音棚話筒。

2）語料庫特點

本語料庫的目的是促進聲學研究，包括但不限於：

說話人識別，語音識別，說話人檢測。
事件和背景分類，語音/非語音。
源分離和定位，降噪，一般增強，聲學質量度量

其中音頻包含：

男女聲閱讀的英語。
模擬的頭部運動：使用電動旋轉平臺上的揚聲器來模擬前景旋轉。
雜散噪聲包含大量的電視、音樂、噪音。
包括大、中、小多個房間的各種混響。

語料庫包含源音頻、重傳音頻、正字法轉錄和說話人標籤，有轉錄和模擬記錄的真實世界的噪音。該語料庫的最終目標是通過提供對複雜聲學數據的訪問來推進聲學研究。語料庫將以開源的形式發佈，免費供商業、學術和政府使用。

3）鏈接

下載地址：

https://voices18.github.io/downloads/

文獻：

https://arxiv.org/abs/1804.05053

See more：

https://voices18.github.io/reading/

4. LibriSpeech

1）基本信息

發佈時間：2015年

大小：60GB

時長：1000小時

採樣：16Hz

LibriSpeech該數據集爲包含文本和語音的有聲讀物數據集，由Vassil Panayotov編寫的大約1000小時的16kHz讀取英語演講的語料庫。數據來源於LibriVox項目的閱讀有聲讀物，並經過細緻的細分和一致。經過切割和整理成每條10秒左右的、經過文本標註的音頻文件，非常適合入門使用。

2）數據集特點

推薦應用方向：自然語音理解和分析挖掘

3）鏈接

（內含鏡像）地址：http://www.openslr.org/12/

5.2000 HUB5 English：

1）基本信息

發佈時間：2002年

該數據集由NIST（國家標準與技術研究院）2000年發起的HUB5評估中使用的40個英語電話對話的成績單組成，其僅包含英語的語音數據集。HUB5評估系列集中在電話上的會話語音，將會話語音轉錄成文本的特定任務。其目標是探索會話語音識別的新領域，開發融合這些思想的先進技術，並測量新技術的性能。

此版本包含評估中用到的40個源語音數據文件的.txt格式的腳本，即20個未發佈的電話交談，是招募的志願者根據機器人操作員的每日主題進行對話，和20個來自CALLHOME美國英語演講中的母語交流者之間的對話。

2）數據集特點

推薦應用方向：音樂、人聲、車輛、樂器、室內等自然和人物聲音識別

3）鏈接

地址：https://catalog.ldc.upenn.edu/LDC2002T43

6.VoxForge：

1）基本信息

帶口音的清晰英語語音數據集。適用於提升不同口音或語調魯棒性的案例。VoxForge創建的初衷是爲免費和開源的語音識別引擎收集標註錄音（在Linux／Unix，Windows以及Mac平臺上）

2）特點

以GPL協議開放所有提交的錄音文件，並且製作聲學模型。以供開源語音識別引擎使用，如CMUSphinx，ISIP，Julias（github）和HTK（注意：HTK有分發限制）。

推薦應用方向：語音識別

3）鏈接

下載地址：

http://www.voxforge.org/home/downloads

7.人類語音的大規模視聽數據集（VoxCeleb）

1）基本信息

VoxCeleb是一個大型人聲識別數據集。它包含來自 YouTube 視頻的 1251 位名人的約 10 萬段語音。數據基本上是性別平衡的（男性佔 55％）。這些名人有不同的口音、職業和年齡。開發集和測試集之間沒有重疊。

該數據集有2個子集：VoxCeleb1和VoxCeleb2

7.1 VoxCeleb1

VoxCeleb1包含超過10萬個針對1,251個名人的話語，這些話語是從上傳到YouTube的視頻短片中提取的。

發音人數：1251

視頻數量：21245

音頻數量：145265

下載地址：

http://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html

7.2 VoxCeleb2

說話人深度識別數據集 VoxCeleb2包含超過100萬個6,112個名人的話語，從上傳到YouTube的視頻中提取，VoxCeleb2已經與VoxCeleb1或SITW數據集沒有重疊的說話人身份。

發音人數量：訓練集：5994，測試集：118

視頻數量：訓練集：145569，測試集：4911

音頻數量：訓練集：1092009，測試集：36237

內容時長：2000小時以上

發佈時間：2018年

下載地址：

http://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox2.html

2）數據集特點

1、音頻全部採自YouTube，是從網上視頻切除出對應的音軌，再再根據說話人進行切分；

2、屬於完全真實的英文語音；

3、數據集是文本無關的；

4、說話人範圍廣泛，具有多樣的種族，口音，職業和年齡；

5、每句平均時長8.2s，最大時長145s，最短時長4s，短語音較多；

6、每人平均持有句子116句，最大持有250句，最小持有45句；

7、數據集男女性別較均衡，男性有690人（55%），女性有561人；

8、採樣率16kHz，16bit，單聲道，PCM-WAV音頻格式；

9、語音帶有一定真實噪聲，非人造白噪聲，噪聲出現時間點無規律，人聲有大有小；

10、噪聲包括：環境突發噪聲、背景人聲、笑聲、回聲、室內噪音、錄音設備噪音；

11、視頻場景包括：明星紅地毯、名人講臺演講、真人節目訪談、大型體育場解說；

12、音頻無靜音段，但不是VAD的效果，而是截取了一個人的完整無靜音音頻片段；

13、數據集自身以劃分了開發集Dev和測試集Test，可直接用於Speaker Verification(V)

參考：

https://www.zhihu.com/question/265820133/answer/356203615

8.TIMIT：英語語音識別數據集

1）基本信息

發佈時間：1993年

採樣：16kHz 16bit

參與人數：630人

TIMIT（英語：The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus），是由德州儀器、麻省理工學院和坦福研究院SRI International合作構建的聲學－音素連續語音語料庫。TIMIT數據集的語音採樣頻率爲16kHz，一共包含6300個句子，由來自美國八個主要方言地區的630個人每人說出給定的10個句子，所有的句子都在音素級別（phone level）上進行了手動分割，標記。TIMIT語料庫包括時間對齊的正字法，語音和單詞轉錄以及每個話語的16位，16kHz語音波形文件。

在給定的10個句子，包括：

2個方言句子(SA, dialect sentences)，對於每個人這2個方言句子都是相同的；
5個音素緊湊句子(SX, phonetically compact sentences)，這5個是從MIT所給的450

個因素分佈平衡的句子中選出，目的是爲了儘可能的包含所有的音素對。

3個音素髮散句子(SI, phonetically diverse sentences)，這3個是由TI從已有的

Brown 語料庫(the Brown Coupus)和劇作家對話集(the Playwrights Dialog)中隨機選擇的，目的是爲了增加句子類型和音素文本的多樣性，使之儘可能的包括所有的音位變體(allophonic contexts)。

TIMIT官方文檔建議按照7:3的比例將數據集劃分爲訓練集(70%)和測試集(30%) ，TIMIT的原始錄音是基於61個音素的，如下所示：

由於在實際中61個音素考慮的情況太多，因而在訓練時有些研究者整合爲48個音素，當評估模型時，李開復在他的成名作(Lee & Hon, 1989)所提出的將61個音素合併爲39個音素方法被廣爲使用。

2）特點

推薦應用方向：語音識別

70%的說話人是男性；大多數說話者是成年白人。

TIMIT語料庫多年來已經成爲語音識別社區的一個標準數據庫，在今天仍被廣爲使用。其原因主要有兩個方面：

1數據集中的每一個句子都在音素級別上進行了手動標記，同時提供了說話人的編號，性別，方言種類等多種信息；

2數據集相對來說比較小，可以在較短的時間內完成整個實驗；同時又足以展現系統的性能。

3）細節

1目錄組織形式如下：

/<語料庫>/<用處>/<方言種類>/<性別><說話者ID>/<句子ID>.<文件類型>

在這裏：

語料庫：timit
用法：train | test
方言種類：dr1 | dr2 | dr3 | dr4 | dr5 | dr6 | dr7 | dr8
性別：m | f
說話者ID：<說話者縮寫><0-9任意數字>
句子ID：<文本類型><句子編號>，其中，文本類型：sa | si | sx
文件類型：wav | txt | wrd | phn

舉例：
(1) /timit/train/dr1/fcjf0/sa1.wav
(2) /timit/test/df5/mbpm0/sx407.phn

2文件類型

TIMIT語料庫包括一些與話語句子相關的文件，除了語音波形文件(.wav)外，還包括對應的句子內容(.txt)，經過時間對齊(time-aligned)的單詞內容(.wrd)，經過時間對齊(time-aligned)的音素內容(.phn)三種類型的文件。這些文件的格式如下：

<採樣起始點> <採樣結束點> <文本內容>
… … …
… … …
… … …
<採樣起始點> <採樣結束點> <文本內容>

在這裏：

採樣起始點：語音段的開始位置（整數）。對於每一個文件，第一個起始位置總是0。
採樣結束點：語音段的結束位置（整數）。由於翻譯方法(transcription method)的使用，最後一個採樣結束位置的值可能比對應的.wav文件。
文本內容：<完整句子> | <單詞標籤> | <音素標籤>

舉例：（/timit/test/dr5/fnlp0/sa1.wav）：

.txt:

0 61748 She had your dark suit in greasy wash water all year.

.wrd:

7470 11362 she
11362 16000 had
15420 17503 your
17503 23360 dark
23360 28360 suit
28360 30960 in
30960 36971 greasy
36971 42290 wash
43120 47480 water
49021 52184 all
52184 58840 year

.phn:(開始和結束的靜音區以h#標記，展示部分內容)

0 7470 h#
7470 9840 sh
9840 11362 iy
11362 12908 hv
12908 14760 ae
14760 15420 dcl
15420 16000 jh
16000 17503 axr
17503 18540 dcl
18540 18950 d
18950 21053 aa
21053 22200 r
22200 22740 kcl
22740 23360 k

參考：

https://catalog.ldc.upenn.edu/docs/LDC93S1/

https://blog.csdn.net/qfire/article/details/78711673

3）鏈接

下載地址：

https://catalog.ldc.upenn.edu/LDC93S1

9.CHIME：

1)基本信息

包含環境噪音的用於語音識別挑戰賽（CHiME Speech Separation and Recognition Challenge）數據集。數據集包含真實、仿真和乾淨的錄音。真實錄音由 4 個speaker在 4 個嘈雜位置的近 9000 個錄音構成，仿真錄音由多個語音環境和清晰的無噪聲錄音結合而成。該數據集包含了訓練集、驗證集、測試集三部分，每份裏面包括了多個speaker在不同噪音環境下的數據。

2）特點

推薦應用方向：語音識別

雙麥克風錄製的立體WAV文件包括左右聲道，而陣列麥克風的錄音被分解爲每個單聲通道的WAV文件。

轉錄以JSON格式提供。

3）鏈接

地址：

http://spandh.dcs.shef.ac.uk/chime_challenge/CHiME5/

10.TED-LIUM：

1）基本信息

採樣：16Hz

時長：118小時

TED-LIUM 語料庫由音頻講座及其轉錄本組成，可在 TED 網站上查閱。

下載地址：

http://www.openslr.org/resources/7/TEDLIUM_release1.tar.gz

國內鏡像：

http://cn-mirror.openslr.org/resources/7/TEDLIUM_release1.tar.gz

10.1 TED-LIUM 2

通道：1

採樣：16Hz 16bit

比特率：256k

TED Talk 的音頻數據集，包含1495個錄音和音頻會議、159848條發音詞典和部分WMT12公開的語料庫以及這些錄音的文字轉錄。

下載：

http://www.openslr.org/resources/19/TEDLIUM_release2.tar.gz

國內鏡像：

http://cn-mirror.openslr.org/resources/19/TEDLIUM_release2.tar.gz

10.2 TED-LIUM 3

通道：1

採樣：16Hz 16bit

比特率：256k

新的TED-LIUM版本是由Ubiqus公司與LIUM（法國勒芒大學）合作製作的。包含2351條錄音與對齊腳本，452小時的音頻，159848條發音詞典，從 WMT12 公開可用的 Corpora 中選擇語言建模的單語言數據：這些文件來自 TED-LIUM 2 版本，但已修改以獲得與英語更相關的標記化

下載：

http://www.openslr.org/resources/51/TEDLIUM_release-3.tgz

國內鏡像：

http://cn-mirror.openslr.org/resources/51/TEDLIUM_release-3.tgz

11.Google AudioSet

1）基本信息

AudioSet是谷歌17年開放的大規模的音頻數據集。該數據集包含了 632 類的音頻類別以及 2084320 條人工標記的每段 10 秒長度的聲音剪輯片段（包括 527 個標籤，片段來自YouTube視頻）。音頻本體 (ontology) 被確定爲事件類別的一張層級圖，覆蓋大範圍的人類與動物聲音、樂器與音樂流派聲音、日常的環境聲音。此項研究論文已發表於IEEE ICASSP 2017 大會上。音頻本體類別如下圖

2）特點

AudioSet提供了兩種格式：

1csv文件，包括音頻所在的YouTube視頻的ID，開始時間，結束時間以及標籤(可能是多標籤)

2128維的特徵，採樣率爲1Hz，也就是把音頻按秒提取爲128維特徵。特徵是使用VGGish模型來提取的，VGGish下載地址爲

https://github.com/tensorflow/models/tree/master/research/audioset 可以使用該模型提取我們自己的數據。VGGish也是用來提取YouTube-8M的。這些數據被存儲爲.tfrecord格式。

128維特徵的下載地址(基於所在地)

storage.googleapis.com/us_audioset/youtube_corpus/v1/features/features.tar.gz

storage.googleapis.com/eu_audioset/youtube_corpus/v1/features/features.tar.gz

storage.googleapis.com/asia_audioset/youtube_corpus/v1/features/features.tar.gz

3）鏈接

下載地址：

https://github.com/audioset/ontology

參考：

https://baijiahao.baidu.com/s?id=1561283095072201&wfr=spider&for=pc

https://blog.csdn.net/qq_39437746/article/details/80793476（含國內鏡像鏈接）

https://cloud.tencent.com/developer/article/1451556

12.CCPE數據集

1）基本信息

發佈時間：2019年

CCPE 全稱爲 Coached Conversational Preference Elicitation，它是我們提出的一種在對話中獲得用戶偏好的新方法，即它允許收集自然但結構化的會話偏好。通過研究一個領域的對話，我們對人們如何描述電影偏好進行了簡要的定量分析；並且向社區發佈了 CCPE-M 數據集，該數據集中有超過 500 個電影偏好對話，表達了 10,000 多個偏好。具體而言，它由 502 個對話框組成的數據集，在用戶和助理之間用自然語言討論電影首選項時有 12,000 個帶註釋的發音。它通過兩個付費人羣工作者之間的對話收集，其中一個工作人員扮演「助手」的角色，而另一個工作人員扮演「用戶」的角色。「助手」按照 CCPE 方法引出關於電影的「用戶」偏好。助理提出的問題旨在儘量減少「用戶」用來儘可能多地傳達他或她的偏好的術語中的偏見，並以自然語言獲得這些偏好。每個對話框都使用實體提及、關於實體表達的首選項、提供的實體描述以及實體的其他語句進行註釋。

在面向電影的 CCPE 數據集中，冒充用戶的個人對着麥克風講話，並且音頻直接播放給冒充數字助理的人。「助手」則輸出他們的響應，然後通過文本到語音向用戶播放。這些雙人自然對話包括在使用合成對話難以複製的雙方之間自發發生的不流暢和錯誤。這創建了一系列關於人們電影偏好的自然且有條理的對話。在對這個數據集的觀察中，我們發現人們描述他們的偏好的方式非常豐富。該數據集是第一個大規模表徵該豐富度的數據集。我們還發現，偏好也稱爲選項的特徵，並不總是與智能助理的方式相匹配，或者與推薦網站的方式相匹配。換言之，你最喜愛的電影網站或服務上的過濾器，可能與你在尋求個人推薦時描述各種電影時使用的語言並不匹配。

有關 CCPE 數據集的詳細信息，參閱具體研究論文https://ai.google/research/pubs/pub48414，該論文將在 2019 年話語與對話特別興趣小組（https://www.aclweb.org/portal/content/sigdial-2019-annual-meeting-special-interest-group-discourse-and-dialogue-call-special）年會上發佈。

2）鏈接

13.Free ST American English Corpus

1）基本信息：

參與人數：10人

該數據集源自(www.Surfay.ai)的一個自由的美式英語語料庫，包含十個發言者的話語，每個說話者有350個左右的詞句。該語料庫是在室內環境下用手機錄製的，每個詞句都由專人仔細抄寫與覈對，保證轉錄的準確性。

2）鏈接

下載地址：

http://www.openslr.org/45/

國內鏡像：

http://cn-mirror.openslr.org/resources/45/ST-AEDS-20180100_1-OS.tgz

14.CSTR VCTK

1）基本信息

參與人數：109人

這個數據集包括109個以英語爲母語、帶有不同口音的英語使用者說出的語音數據。每位發言者宣讀約400句詞句，其中大部分來自報紙，加上rainbow passage和旨在識別說話者口音的引語段落。報紙文章取自《先驅報》（格拉斯哥），並經《先驅報》和《時代》集團許可。每位演講者閱讀一組不同的報紙句子，其中每組句子都是使用貪婪算法選擇的，該算法旨在最大化上下文和語音覆蓋。rainbow passage和引語段落對所有發言者都是一樣的。

彩虹通道可以在英語檔案國際方言中找到：http://web.ku.edu/~idea/readings/rainbow.htm

引出段落與用於語音重音存檔 http://accent.gmu.edu的段落相同。語音重音存檔的詳細信息可查看http://www.ualberta.ca/~aacl2009/PDFs/WeinbergerKunath2009AACL.pdf

2）特點

Google Wavenet用到的數據庫。

See more: http://homepages.inf.ed.ac.uk/jyamagis/page3/page58/page58.html

下載：

https://datashare.is.ed.ac.uk/handle/10283/2651

15.LibriTTS corpus

1）基本信息

採樣：24Hz

時長：585小時

LibriTTS 是一種多語言英語語種，以 24kHz 採樣率閱讀英語語音約 585 小時，由 Heiga Zen 在 Google 語音和 Google 大腦團隊成員的協助下編寫。LibriTTS 語料庫專爲 TTS 研究而設計。它派生自LibriSpeech語料庫的原始材料（來自LibriVox的MP3音頻文件和古騰堡項目的文本文件）。

2）特點

以下是 LibriSpeech 語料庫的主要區別：

1音頻文件的採樣速率爲 24kHz。

2演講在句子中斷時被分割。

3包含原始文本和規範化文本。

4可以提取上下文信息（例如相鄰的句子）。

5排除了具有顯著背景噪聲的透口。

3)鏈接（鏡像）

http://www.openslr.org/60/

16. The AMI Corpus

這是最初託管在http://groups.inf.ed.ac.uk/ami/corpus/上的 AMI Corpus 聲學數據的鏡像。AMI 會議會議記錄包含 100 小時的會議錄音。錄像使用與公共時間線同步的信號範圍。其中包括近距離麥克風和遠場麥克風、獨立和房間視圖攝像機，以及從幻燈機和電子白板輸出。在會議期間，與會者還可以使用不同步的筆來記錄所寫內容。會議以英語錄制，使用三個不同的房間，具有不同的聲學屬性，並且包括大多數非母語人士。

下載：

http://www.openslr.org/16/

【中文】

17.Free ST Chinese Mandarin Corpus

1）基本信息：

參與者：855人

這個語料庫是用手機在室內安靜的環境中錄製的。它有855個speakers。每個演講者有120個話語。所有的話語都經過人仔細的轉錄和核對。保證轉錄精度

語料庫包含：

1音頻文件；

2轉錄；

3元數據；

2）鏈接

下載：（8.2G）

http://www.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz

國內鏡像：

http://cn-mirror.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz

18.Primewords Chinese Corpus Set 1

1）基本信息

參與人數：296人

時長：178小時

這個免費的中文普通話語料庫由上海普力信息技術有限公司發佈。(www.primewords.cn)包含178個小時的數據。該語料由296名以中文爲母語的人的智能手機錄製。轉錄精度大於 98%，置信度爲 95%。免費用於學術用途。轉述和詞句之間的映射以 JSON 格式提供。

2）鏈接

下載：（9.0G）

http://www.openslr.org/resources/47/primewords_md_2018_set1.tar.gz

國內鏡像：

http://cn-mirror.openslr.org/resources/47/primewords_md_2018_set1.tar.gz

19.愛數智慧中文手機錄音音頻語料庫（Mandarin Chinese Read Speech ）

1）基本信息

時長：755小時

參與人數：1000人

音頻格式：PCM

MagicData中文手機錄音音頻語料庫包含755小時的中文普通話朗讀語音數據，其中分爲訓練集712.09小時、開發集14.84小時和測試集28.08小時。本語料庫的錄製文本覆蓋多樣化的使用場景，包括互動問答、音樂搜索、口語短信信息、家居命令控制等。採集方式爲手機錄音，涵蓋多種類型的安卓手機；錄音輸出爲PCM格式。1000名來自中國不同口音區域的發言人參與採集。MagicData中文手機錄音音頻語料庫由MagicData有限公司開發，免費發佈供非商業使用。

2）鏈接

數據包：

https://freedata.oss-cn-beijing.aliyuncs.com/MAGICDATA_Mandarin_Chinese_Speech.zip

下載地址

http://www.imagicdatatech.com/index.php/home/dataopensource/data_info/id/101

20.THCHS30

1）基本信息

時長:40餘小時

THCHS30是一個經典的中文語音數據集，包含了1萬餘條語音文件，通過單個碳粒麥克風錄取，大約40小時的中文語音數據，內容以文章詩句爲主，全部爲女聲。它是由清華大學語音與語言技術中心（CSLT）出版的開放式中文語音數據庫。原創錄音於2002年由朱曉燕教授在清華大學計算機科學系智能與系統重點實驗室監督下進行，原名“TCMSD”，代表“清華連續”普通話語音數據庫’。13年後的出版由王東博士發起，並得到了朱曉燕教授的支持。他們希望爲語音識別領域的新入門的研究人員提供玩具級別的數據庫，因此，數據庫對學術用戶完全免費。

2）鏈接

國內鏡像：

https://link.ailemon.me/?target=http://cn-mirror.openslr.org/resources/18/data_thchs30.tgz

國外鏡像：

https://link.ailemon.me/?target=http://www.openslr.org/resources/18/data_thchs30.tgz

21.ST-CMDS

1）基本信息：

時長:100餘小時

參與人數：855人

ST-CMDS是由一個AI數據公司發佈的中文語音數據集，包含10萬餘條語音文件，大約100餘小時的語音數據。數據內容以平時的網上語音聊天和智能語音控制語句爲主，855個不同說話者，同時有男聲和女聲，適合多種場景下使用。

2）鏈接

下載地址：

國內鏡像：

https://link.ailemon.me/?target=http://cn-mirror.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz

國外鏡像：

https://link.ailemon.me/?target=http://www.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz

22.MAGICDATA Mandarin Chinese Read Speech Corpus

1）基本信息

時長：755小時

參與人數：1080人

應用：語音識別，機器翻譯，說話人識別和其他語音相關領域

Magic Data技術有限公司的語料庫，語料庫包含755小時的語音數據，其主要是移動終端的錄音數據。邀請來自中國不同重點區域的1080名演講者參與錄製。句子轉錄準確率高於98％。錄音在安靜的室內環境中進行。數據庫分爲訓練集，驗證集和測試集，比例爲51：1：2。諸如語音數據編碼和說話者信息的細節信息被保存在元數據文件中。錄音文本領域多樣化，包括互動問答，音樂搜索，SNS信息，家庭指揮和控制等。還提供了分段的成績單。該語料庫旨在支持語音識別，機器翻譯，說話人識別和其他語音相關領域的研究人員。因此，語料庫完全免費用於學術用途。

2）鏈接

下載地址見參考：

https://blog.ailemon.me/2018/11/21/free-open-source-chinese-speech-datasets/

鏡像：

http://www.openslr.org/68/

23 AISHELL數據集

23.1AISHELL開源版1

1）基本信息

時長：178小時

參與人數：400人

採樣：44.1kHz & 16kHz 16bit

AISHELL是由北京希爾公司發佈的一箇中文語音數據集，其中包含約178小時的開源版數據。該數據集包含400個來自中國不同地區、具有不同的口音的人的聲音。錄音是在安靜的室內環境中同時使用3種不同設備：高保真麥克風（44.1kHz，16-bit）；Android系統手機（16kHz，16-bit）；iOS系統手機（16kHz，16-bit）。進行錄音，並採樣降至16kHz，用於製作AISHELL-ASR0009-OS1。通過專業的語音註釋和嚴格的質量檢查，手動轉錄準確率達到95％以上。該數據免費供學術使用。他們希望爲語音識別領域的新研究人員提供適量的數據。

2）鏈接

下載地址：

http://www.aishelltech.com/kysjcp

23.2 AISHELL-2 開源中文語音數據庫

1）基本信息

時長：1000小時

參與人數：1991人

希爾貝殼中文普通話語音數據庫AISHELL-2的語音時長爲1000小時，其中718小時來自AISHELL-ASR0009-[ZH-CN]，282小時來自AISHELL-ASR0010-[ZH-CN]。錄音文本涉及喚醒詞、語音控制詞、智能家居、無人駕駛、工業生產等12個領域。錄製過程在安靜室內環境中，同時使用3種不同設備：高保真麥克風（44.1kHz，16bit）；Android系統手機（16kHz，16bit）；iOS系統手機（16kHz，16bit）。AISHELL-2採用iOS系統手機錄製的語音數據。1991名來自中國不同口音區域的發言人參與錄製。經過專業語音校對人員轉寫標註，並通過嚴格質量檢驗，此數據庫文本正確率在96%以上。（支持學術研究，未經允許禁止商用。）

2）鏈接

下載地址：

http://www.aishelltech.com/aishell_2

23.3 AISHELL-翻譯機錄製語音數據庫

1）基本信息

時長：31.2小時

參與人數：12人

採樣： 44.1kHz & 16kHz 16bit

文件：wav

來自AISHELL的開源語音數據產品：翻譯機錄製語音數據庫

2）鏈接

下載地址：

http://www.aishelltech.com/aishell_2019C_eval

23.4 AISHELL-家居環境近遠講同步語音數據庫

1）基本信息

時長：24.3小時

參與人數：50人

採樣： 44.1kHz & 16kHz 16bit

文件：wav

AISHELL-2019A-EVAL 隨機抽取 50 個發音人。每人從位置 A(高保真 44.1kHz，16bit)與位置 F(Android 系統手機 16kHz，16bit)中，各選取 232 句到 237 句。
此數據庫經過專業語音校對人員轉寫標註，並通過嚴格質量檢驗，文本正確率 100%。

AISHELL-2019A-EVAL 是 AISHELL-ASR0010 的子庫，共 24.3 小時。

2）鏈接

下載地址：

http://www.aishelltech.com/aishell_2019A_eval

23.5 AISHELL-語音喚醒詞數據庫

1）基本信息

時長：437．67小時

參與人數：86人

採樣： 44.1kHz & 16kHz 16bit

文件：wav

來自希爾貝殼的語音喚醒詞數據庫

2)鏈接

下載地址：

http://www.aishelltech.com/aishell_2019B_eval

24.Aidatatang

24.1 aidatatang_1505zh（完整的1505小時中文普通話語音數據集）

1）基本信息

參與人數：6408人

時長：1505小時

包含6408位來自中國不同地區的說話人、總計1505小時時長共3萬條語音、經過人工精心標註的中文普通話語料集可以對中文語音識別研究提供良好的數據支持。採集區域覆蓋全國34個省級行政區域。經過專業語音校對人員轉寫標註，並通過嚴格質量檢驗，句標註準確率達98%以上，是行業內句準確率的最高標準。

2）使用效果：

3）鏈接

數據申請：

https://www.datatang.com/webfront/opensource.html

24.2 Aidatatang_200zh（基於完整數據集精選的200小時中文普通話語音數據集）

時長：200小時

參與人數：600人

採樣： 16kHz 16bit

Aidatatang_200zh是由北京數據科技有限公司（數據堂）提供的開放式中文普通話電話語音庫。語料庫長達200小時，由Android系統手機（16kHz，16位）和iOS系統手機（16kHz，16位）記錄。邀請來自中國不同重點區域的600名演講者參加錄音，錄音是在安靜的室內環境或環境中進行，其中包含不影響語音識別的背景噪音。參與者的性別和年齡均勻分佈。語料庫的語言材料是設計爲音素均衡的口語句子。每個句子的手動轉錄準確率大於98％。數據庫按7:1:2的比例分爲訓練集、驗證集和測試集。在元數據文件中保存諸如語音數據編碼和揚聲器信息等詳細信息。還提供分段轉錄本。

2）特點

該語料庫旨在爲語音識別、機器翻譯、聲紋識別等語音相關領域的研究人員提供支持。因此，該語料庫完全免費供學術使用。

數據堂精選了200小時中文普通話語音數據在OpenSLR發佈，並在Kaldi平臺提供了訓練代碼，對應的訓練方法也在github平臺發佈。

3）鏈接

訓練：

https://github.com/datatang-ailab/aidatatang_200zh/blob/master/README.md

國內鏡像：

https://link.ailemon.me/?target=http://cn-mirror.openslr.org/resources/62/aidatatang_200zh.tgz

國外鏡像：https://link.ailemon.me/?target=http://www.openslr.org/resources/62/aidatatang_200zh.tgz

【其他語言】

25.其他

Vystadial

這些數據是轉錄的以英語和捷克語交流的電話數據。

地址：

http://www.openslr.org/resources/6/data_voip_cs.tgz( Czech speech and transcripts )

http://www.openslr.org/resources/6/data_voip_en.tgz( English speech and transcripts )

ALFFA (African Languages in the Field: speech Fundamentals and Automation)

這些數據是轉錄的以阿姆哈拉語和斯瓦希里語和沃洛夫語交流的語音數據。

地址：

http://www.openslr.org/resources/25/data_readspeech_am.tar.bz2( Amharic speech and transcripts )

http://www.openslr.org/resources/25/data_broadcastnews_sw.tar.bz2( Swahili speech and transcripts )

http://www.openslr.org/resources/25/data_readspeech_wo.tar.bz2 ( Wolof speech and transcripts )

Heroico

Heroico 語料庫（LDC2006S37）最初是爲了訓練西班牙語學習應用中的發音建模聲學模型而收集的。

鏈接

http://www.openslr.org/39/

Tunisian_MSA

突尼斯語-MSA 語料庫最初是爲訓練阿拉伯語學習應用中的發音建模聲學模型而收集的。數據收集工作於2003年在突尼斯共和國首都突尼斯附近進行。突尼斯語-MSA語料庫分爲背誦和提示語音子庫。背誦的語音存儲在錄音目錄下。提示語音存儲在答案目錄下。118名線人中的每一個都通過背誦句子和回答提示的問題，爲兩個子公司做出了貢獻。突尼斯語-MSA語種有11.2小時的演講時間。2017 年收集了一個小語料庫進行測試。演講由4名speaker：3名利比亞男性和1名來自突尼斯的女性組成。

鏈接：

http://www.openslr.org/46/

African Accented French

此語料庫包含大約 22 小時的非洲口音法語的語音錄音。爲所有錄音提供成績單。

鏈接：

http://www.openslr.org/57/

Pansori-TEDxKR

基本信息

是一種韓語語音識別（ASR）語種，由 2010 年至 2014 年在韓國舉行的韓語 TEDx 會談產生。它包含來自 41 個揚聲器的大約 3 小時的語音音頻腳本對。此語料庫是使用稱爲 Pansori 的新語料庫數據引入和處理系統生成的。語料庫中包括的語音音頻是 16 位 FLAC 文件，採樣率爲 16 KHz。

特點

只包括由社區翻譯人員轉錄的TEDx講座。

語種片段在字幕邊界處被分割。

通過手動（工具輔助）語音文本對齊微調分段。

由最先進的語音識別器（Google 雲語音到文本）進行最終驗證。

鏈接

https://github.com/yc9701/pansori-tedxkr-corpus

下載：

http://www.openslr.org/58/

ParlamentParla

這是加泰羅尼亞語的演講文，由工人合作社Col_lectivaT出版。音頻片段摘自加泰羅尼亞議會加泰羅尼亞議會全體會議的錄音。錄音與他們的記錄一致，並提取了320小時最乾淨的片段。內容屬於加泰羅尼亞議會，發佈的數據符合其使用條款。音頻文件是PCM 16位單聲道，小尾音與採樣率16 kHz。自版本 1.0 起，語料庫分爲 90 小時清潔和 230 小時的其他質量段加泰羅尼亞自治政府文化部支持編寫這一語料庫。

下載：

http://www.openslr.org/59/

TEDx Spanish Corpus

這是一個性別不平衡的西班牙語語料庫，期限爲 24 小時。它包含 TEDx 事件中多個講解者的自發語音;他們大多數是男性。轉錄以小寫字母顯示，沒有標點符號.

地址：

http://www.openslr.org/resources/67/tedx_spanish_corpus.tgz

以下數據集包含相關語言的轉錄音頻數據，由波形文件和 TSV 文件（line_index.tsv）組成。文件行_index.tsv 包含匿名的 FileID 和文件中的音頻轉錄。數據集已手動檢查質量，但可能仍有錯誤。

High quality TTS data for Bengali languages

http://www.openslr.org/37/孟加拉國孟加拉語和印度孟加拉語

High quality TTS data for Javanese

http://www.openslr.org/41/爪哇

High quality TTS data for Khmer.