中文：

https://github.com/candlewill/Dialog_Corpus 這個是一個集合，包括之前答主的答案！
包含的語料包括了
1）小黃雞 xiaohuangji50w_nofenci.conv.zip
2）dgk_shooter_min.conv.zip 中文電影對白語料，噪音比較大，許多對白問答關係沒有對應好
3）smsCorpus_zh_xml_2015.03.09.zip 包含中文和英文短信息語料，據說是世界最大公開的短消息語料
4）ChatterBot中文基本聊天語料 ChatterBot聊天引擎提供的一點基本中文聊天語料，量很少，但質量比較高
5）Datasets for Natural Language Processing 這是他人收集的自然語言處理相關數據集，主要包含Question Answering，Dialogue Systems， Goal-Oriented Dialogue Systems三部分，都是英文文本。可以使用機器翻譯爲中文，供中文對話使用
6）白鷺時代中文問答語料由白鷺時代官方論壇問答板塊10,000+ 問題中，選擇被標註了“最佳答案”的紀錄彙總而成。人工review raw data，給每一個問題，一個可以接受的答案。目前，語料庫只包含2907個問答。
7）Chat corpus repository 包括：開放字幕、英文電影字幕、中文歌詞、英文推文
8）保險行業QA語料庫通過翻譯 insuranceQA產生的數據集。train_data含有問題12,889條，數據 141779條，正例：負例 = 1:10； test_data含有問題2,000條，數據 22000條，正例：負例 = 1:10；valid_data含有問題2,000條，數據 22000條，正例：負例 = 1:10
9）https://github.com/MarkWuNLP/MultiTurnResponseSelection 來自豆瓣的多輪對話
10）http://jddc.jd.com/ 京東比賽
11）http://www.shareditor.com/blogshow/?blogId=112 自己動手做的數據
12）貼吧對話數據文件名：tieba.dialogues 保存在網盤中
13）https://www.jianshu.com/p/c1865d2b911c 高質量閒聊（聊天、對話）語料（數據）
14）SMP2017中文人機對話評測數據 https://github.com/HITlilingzhi/SMP2017ECDT-DATA
15) 新浪微博數據集，評論回覆短句，下載地址：http://lwc.daanvanesch.nl/openaccess.php
16）http://data.noahlab.com.hk/conversation/ 華爲諾亞方舟實驗室中文對話語料庫
17http://www.mlln.cn/2018/06/02/[%E8%BD%AC]%E5%90%8A%E7%82%B8%E5%A4%A9%E7%9A%84%E4%B8%AD%E6%96%87%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86%E5%B7%A5%E5%85%B7%E5%92%8C%E8%AF%AD%E6%96%99%E5%BA%93%E4%BB%8B%E7%BB%8D/#Corpus-%E4%B8%AD%E6%96%87%E8%AF%AD%E6%96%99
corpus中文語料集
18）ubuntu對話系統數據集保存在百度網盤中 ubuntu_dataset.zip

英文：

1）https://link.zhihu.com/?target=http%3A//nlp.stanford.edu/projects/kvret/kvret_dataset_public.zip 斯坦福數據集
2）Cornell Movie Dialogs：電影對話數據集，下載地址：http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html
3) Ubuntu Dialogue Corpus：Ubuntu日誌對話數據，下載地址：https://arxiv.org/abs/1506.08909
4) OpenSubtitles：電影字幕，下載地址：http://opus.lingfil.uu.se/OpenSubtitles.php
5) Twitter：twitter數據集，下載地址：https://github.com/Marsan-Ma/twitter_scraper
6) Papaya Conversational Data Set：基於Cornell、Reddit等數據集重新整理之後，好像挺乾淨的，下載鏈接：https://github.com/bshao001/ChatLearner
7）https://github.com/niderhoff/nlp-datasets/blob/master/README.md 自然語言處理的免費/公開數據集（https://zhuanlan.zhihu.com/p/35423943 資源比較多，可以看看）

相關數據集的處理代碼或者處理好的數據可以參見下面兩個github項目：

DeepQA
chat_corpus

others：
電影字幕網站：https://www.zimuku.cn/

以上是我前段時間收集的語料，由於個人能力有限，如果還有沒有補充上去的，希望各位大神在留言裏補充，感激不盡。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

關於中英文語料的獲取途徑總結

中文：

英文：

以上是我前段時間收集的語料，由於個人能力有限，如果還有沒有補充上去的，希望各位大神在留言裏補充，感激不盡。

nlp相關會議總結

線性規劃-概念與公式總結

對話機器人綜述

分散式的句子和文件表示

設計模式之小結

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結