Kaggle NLP中文数据合集

Kaggle NLP关联的中文数据集合集

Yet Another Chinese News Dataset
包含新闻的标题+内容+图片+url,包含简体中文和繁体中文
~140k条信息

新闻联播(Chinese official daily news)
包含新闻的时间+分类(国内/国际etc)+标题+内容,简体中文
~20k条信息

Douban Movie Short Comments Dataset
包含电影名英文+电影片中文+评论时间+用户名+评分+评价+点赞数,简体中文
~1.963m条信息

ChineseMedicalCollection
包含中文古典医药书籍名称(只有名字)
~700条信息

Pre-trained BERT, including scripts
The latest pre-trained BERT models, along with the latest code repo
(include BERT-Base, Chinese)

Chinese Song Lyrics
包含歌词+歌名+歌手+url,简体中文
~3k首歌曲

Social Network Fake Account Dataset
看起来实际上是对微博机器人账户的统计
~108k条收据

Dou ban Movie short comments (10377Movies)
包含电影名+评分+用户名+评论时间+用户评论,简体中文
~10m条数据

WSDM - Fake News Classification
包含新闻+辟谣+新闻英文翻译+新闻英文辟谣,简体中文
~70k新闻,140k条辟谣

The National University of Singapore SMS Corpus
A corpus of more than 67,000 SMS messages in Singapore English & Mandarin
31,465 条中文短信


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章