Kaggle NLP關聯的中文數據集合集
Yet Another Chinese News Dataset
包含新聞的標題+內容+圖片+url,包含簡體中文和繁體中文
~140k條信息
新聞聯播(Chinese official daily news)
包含新聞的時間+分類(國內/國際etc)+標題+內容,簡體中文
~20k條信息
Douban Movie Short Comments Dataset
包含電影名英文+電影片中文+評論時間+用戶名+評分+評價+點贊數,簡體中文
~1.963m條信息
ChineseMedicalCollection
包含中文古典醫藥書籍名稱(只有名字)
~700條信息
Pre-trained BERT, including scripts
The latest pre-trained BERT models, along with the latest code repo
(include BERT-Base, Chinese)
Chinese Song Lyrics
包含歌詞+歌名+歌手+url,簡體中文
~3k首歌曲
Social Network Fake Account Dataset
看起來實際上是對微博機器人賬戶的統計
~108k條收據
Dou ban Movie short comments (10377Movies)
包含電影名+評分+用戶名+評論時間+用戶評論,簡體中文
~10m條數據
WSDM - Fake News Classification
包含新聞+闢謠+新聞英文翻譯+新聞英文闢謠,簡體中文
~70k新聞,140k條闢謠
The National University of Singapore SMS Corpus
A corpus of more than 67,000 SMS messages in Singapore English & Mandarin
31,465 條中文短信