【2月限時免費】多國語言文本採集數據

文本語料是研發裏必不可少的基礎數據資源,針對小語種語料稀少的現狀,數據堂基於專業爬蟲及數據清理技術,從互聯網上抓取各種語言的海量文本數據,包括指定網站的定向採集和清理、指定主題的非定向採集和清理。


本數據集摘錄了日語、俄語、荷蘭語、挪威語的少量文本語料,壓縮前有778M大小。存儲格式爲文本文件,utf-8編碼,文件名以網站命名,每篇文章保存爲一行,並去掉所有網頁標記符。

  

更多內容詳見

http://factory.datatang.com/service_4.html




發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章