Kaggle NLP中文數據合集

Kaggle NLP關聯的中文數據集合集

Yet Another Chinese News Dataset
包含新聞的標題+內容+圖片+url,包含簡體中文和繁體中文
~140k條信息

新聞聯播(Chinese official daily news)
包含新聞的時間+分類(國內/國際etc)+標題+內容,簡體中文
~20k條信息

Douban Movie Short Comments Dataset
包含電影名英文+電影片中文+評論時間+用戶名+評分+評價+點贊數,簡體中文
~1.963m條信息

ChineseMedicalCollection
包含中文古典醫藥書籍名稱(只有名字)
~700條信息

Pre-trained BERT, including scripts
The latest pre-trained BERT models, along with the latest code repo
(include BERT-Base, Chinese)

Chinese Song Lyrics
包含歌詞+歌名+歌手+url,簡體中文
~3k首歌曲

Social Network Fake Account Dataset
看起來實際上是對微博機器人賬戶的統計
~108k條收據

Dou ban Movie short comments (10377Movies)
包含電影名+評分+用戶名+評論時間+用戶評論,簡體中文
~10m條數據

WSDM - Fake News Classification
包含新聞+闢謠+新聞英文翻譯+新聞英文闢謠,簡體中文
~70k新聞,140k條闢謠

The National University of Singapore SMS Corpus
A corpus of more than 67,000 SMS messages in Singapore English & Mandarin
31,465 條中文短信


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章