【分享】體育領域的文本分類數據

本數據集是從中國Web信息博物館(Infomall)保存的歷史網頁中,摘選了1992-2011年間的新聞而成(已去除重複新聞)。整個數據集共有超過1400萬篇歷史新聞,包括新聞發佈時間、網址、標題和內容幾個屬性。該數據集首次應用在天網搜索-中國事件檢索與發現項目中,用於檢索過去20年間發生的各種大小事件。數據格式如下,其中每行結尾使用"\x1e"標識,每篇新聞結尾使用"\x1f"標識。


數據下載:http://www.datatang.com/data/44002

數據堂-數據共享服務平臺


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章