Facebook發佈多語種語音-文本翻譯語料庫CoVoST,包括11種語言(法語、德語、荷蘭語、俄語、西班牙語、意大利語、土耳其語、波斯語、瑞典語、蒙古語和中文)的語音、文字轉錄及英文譯文。其中數據集和論文如下:
《CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus》
github地址:
https://github.com/facebookresearch/covost
論文下載地址:
https://arxiv.org/abs/2002.01320
裏面含中文的數據。數據集的具體情況: