OpenRefine简介
目前有三款免费的数据清洗工具:OpenRefine,Weka,Data Wrangler。下面主要介绍OpenRefine。
● OpenRefine前身是谷歌公司(Google) 开发的数据清洗工具GoogleRefine,
随后于2012年开放源代码,改为现在的OpenRefine
● 一款基于计算机浏览器的数据清洗软件
● 在数据清洗、数据探索以及数据转换方面非常有效的一个格式化工具
●它是一个开源的网络应用,可以在计算机中直接运行,这样可以避开上传指
定信息到外部服务器的问题
●它类似于传统Excel处理软件,但是工作方式更像是数据库,以列和字段的
方式工作,而不是以单元格的方式工作
●下载地址: http://openrefine.org/download.html
OpenRefine操作界面
OpenRefine数据清洗案例
OpenRefine运行
解压下载的文件后,直接打开.exe应用程序:
然后会出现以下命令行:
稍等片刻便会自动弹出默认浏览器显示OpenRefine,OpenRefine使用的是计算机的3333接口,所以如果没有自动弹出也没事,可以直接在浏览器输入127.0.0.1:3333,关掉OpenRefine可以使用Ctrl+C,也可以直接关闭浏览器。
下面从以下几个方面对OpenRefine进行介绍:
配置语言
可以点击Language Settings进行语言选择:选择简体中文
新建项目
新建项目:在OpenRefine中导入数据集
支持多种格式的数据文件,如:
TSV、CSV、 JSON、MS Excel文件(包括XLS和XLSX文件) 、logs. 开放文
档格式(Open Document Format,ODF)以及spreadsheets 、XML和资
源描述框架(Resource Description Framework, RDF)等
多种导入数据方式:
本地计算机:从本地选择文件导入
网址:直接从网上的数据源导入数据
剪贴板:直接将数据进行复制粘贴
Google Data:提供Google Spreadsheet或者Fusion Table接口
导入数据
点击新建项目,导入数据
数据展示
- 数据的总行数
- 显示选项
- 列名称:如Record ID
- 具体数据
导出项目
点击右上角“导出”,选择“导出项目”
撤销重做
进行多步操作之后,若要恢复到操作之前,可在撤销/重做中进行,蓝色选中部分就是要撤销的操作:
OpenRefine Expression Language(GREL)
●GREL语言为OpenRefine的内建语言
●可与正则表达式结合进行数据转换
●GREL两种基本的函数格式为:
functionName(arg0, arg1, …)
arg0.functionName(arg1, …)
字符串操作
●startsWith(string s, string sub):判断string s是否以string sub为起始字符串,
返回布尔类型
例如:startsWith( “food” ,“foo” )返回true
●endsWith(string S, string sub):判断string s是否以string sub为终止字符串,返回布尔类型
例如:endsWith( “food” ,“ood” )返回true
●contains(string s, string sub);判断string s是否包含string sub字符串,返回布尔类型
例如:contains( “food”,"oo” )返回true
●toLowercase(string s):将s转换为小写
●toUppercase(string s):将s转换为大写
●toTitlecase(string s):将s转换为每个词的首字母大写
例如:toTitlecase( “Once upon a midnight dreary” )返回Once Upon A Midnight Dreary
查找替换
●indexOf(string s, string sub):返回子字符串第- -次出现在s中的字符位置, 如果没有,返回-1
例如:indexOf(“internationalization”, “nation”) returns 5
●lastIndexOf(string s, string sub):返回子字符串最后一次出现在s中的字符位置,如果没有,返回-1
例如:lastlndexOf( “parallel” ,“a” )返回3
●replace(string s, string f, string r):返回将s中的f替换为r之后的字符串
例如:replace(“The cow jumps over the moon and moos”, “o0”, “ee”)返回The cow jumps over the meen and mees.
子字符串
●substring(s, number from, optional number to)返回起始位置为number from,终止位置为optional number to的子字符串,如果没有终止位置,直到字符串结束
例如:substring( “profound” , 3)返回found
substring( “profound” , 2, 4)返回of
声明:本博文内容为学习完数据酷客中的数据清洗课程后所总结,建议大家学习数据酷客上面的课程。