【2月限时免费】多国语言文本采集数据

文本语料是研发里必不可少的基础数据资源,针对小语种语料稀少的现状,数据堂基于专业爬虫及数据清理技术,从互联网上抓取各种语言的海量文本数据,包括指定网站的定向采集和清理、指定主题的非定向采集和清理。


本数据集摘录了日语、俄语、荷兰语、挪威语的少量文本语料,压缩前有778M大小。存储格式为文本文件,utf-8编码,文件名以网站命名,每篇文章保存为一行,并去掉所有网页标记符。

  

更多内容详见

http://factory.datatang.com/service_4.html




發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章