關於中英文語料的獲取途徑總結

中文:

  1. https://github.com/candlewill/Dialog_Corpus 這個是一個集合,包括之前答主的答案!
    包含的語料包括了
    1)小黃雞 xiaohuangji50w_nofenci.conv.zip
    2)dgk_shooter_min.conv.zip 中文電影對白語料,噪音比較大,許多對白問答關係沒有對應好
    3)smsCorpus_zh_xml_2015.03.09.zip 包含中文和英文短信息語料,據說是世界最大公開的短消息語料
    4)ChatterBot中文基本聊天語料 ChatterBot聊天引擎提供的一點基本中文聊天語料,量很少,但質量比較高
    5)Datasets for Natural Language Processing 這是他人收集的自然語言處理相關數據集,主要包含Question Answering,Dialogue Systems, Goal-Oriented Dialogue Systems三部分,都是英文文本。可以使用機器翻譯爲中文,供中文對話使用
    6)白鷺時代中文問答語料 由白鷺時代官方論壇問答板塊10,000+ 問題中,選擇被標註了“最佳答案”的紀錄彙總而成。人工review raw data,給每一個問題,一個可以接受的答案。目前,語料庫只包含2907個問答。
    7)Chat corpus repository 包括:開放字幕、英文電影字幕、中文歌詞、英文推文
    8)保險行業QA語料庫 通過翻譯 insuranceQA產生的數據集。train_data含有問題12,889條,數據 141779條,正例:負例 = 1:10; test_data含有問題2,000條,數據 22000條,正例:負例 = 1:10;valid_data含有問題2,000條,數據 22000條,正例:負例 = 1:10
    9)https://github.com/MarkWuNLP/MultiTurnResponseSelection 來自豆瓣的多輪對話
    10)http://jddc.jd.com/ 京東比賽
    11)http://www.shareditor.com/blogshow/?blogId=112 自己動手做的數據
    12) 貼吧對話數據 文件名:tieba.dialogues 保存在網盤中
    13)https://www.jianshu.com/p/c1865d2b911c 高質量閒聊(聊天、對話)語料(數據)
    14)SMP2017中文人機對話評測數據 https://github.com/HITlilingzhi/SMP2017ECDT-DATA
    15) 新浪微博數據集,評論回覆短句,下載地址:http://lwc.daanvanesch.nl/openaccess.php
    16)http://data.noahlab.com.hk/conversation/ 華爲諾亞方舟實驗室中文對話語料庫
    17http://www.mlln.cn/2018/06/02/[%E8%BD%AC]%E5%90%8A%E7%82%B8%E5%A4%A9%E7%9A%84%E4%B8%AD%E6%96%87%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86%E5%B7%A5%E5%85%B7%E5%92%8C%E8%AF%AD%E6%96%99%E5%BA%93%E4%BB%8B%E7%BB%8D/#Corpus-%E4%B8%AD%E6%96%87%E8%AF%AD%E6%96%99
    corpus中文語料集
    18)ubuntu對話系統數據集 保存在百度網盤中 ubuntu_dataset.zip

英文:

1)https://link.zhihu.com/?target=http%3A//nlp.stanford.edu/projects/kvret/kvret_dataset_public.zip 斯坦福數據集
2)Cornell Movie Dialogs:電影對話數據集,下載地址:http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html
3) Ubuntu Dialogue Corpus:Ubuntu日誌對話數據,下載地址:https://arxiv.org/abs/1506.08909
4) OpenSubtitles:電影字幕,下載地址:http://opus.lingfil.uu.se/OpenSubtitles.php
5) Twitter:twitter數據集,下載地址:https://github.com/Marsan-Ma/twitter_scraper
6) Papaya Conversational Data Set:基於Cornell、Reddit等數據集重新整理之後,好像挺乾淨的,下載鏈接:https://github.com/bshao001/ChatLearner
7)https://github.com/niderhoff/nlp-datasets/blob/master/README.md 自然語言處理的免費/公開數據集(https://zhuanlan.zhihu.com/p/35423943 資源比較多,可以看看)

相關數據集的處理代碼或者處理好的數據可以參見下面兩個github項目:

DeepQA
chat_corpus

others:
電影字幕網站:https://www.zimuku.cn/

以上是我前段時間收集的語料,由於個人能力有限,如果還有沒有補充上去的,希望各位大神在留言裏補充,感激不盡。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章