本數據集是從中國Web信息博物館(Infomall)保存的歷史網頁中,摘選了1992-2011年間的新聞而成(已去除重複新聞)。整個數據集共有超過1400萬篇歷史新聞,包括新聞發佈時間、網址、標題和內容幾個屬性。該數據集首次應用在天網搜索-中國事件檢索與發現項目中,用於檢索過去20年間發生的各種大小事件。數據格式如下,其中每行結尾使用"\x1e"標識,每篇新聞結尾使用"\x1f"標識。
數據下載:http://www.datatang.com/data/44002
數據堂-數據共享服務平臺