文本语料是研发里必不可少的基础数据资源,针对小语种语料稀少的现状,数据堂基于专业爬虫及数据清理技术,从互联网上抓取各种语言的海量文本数据,包括指定网站的定向采集和清理、指定主题的非定向采集和清理。
本数据集摘录了日语、俄语、荷兰语、挪威语的少量文本语料,压缩前有778M大小。存储格式为文本文件,utf-8编码,文件名以网站命名,每篇文章保存为一行,并去掉所有网页标记符。
更多内容详见
http://factory.datatang.com/service_4.html
点击下载:【2月限时免费】多国语言文本采集数据