数据清洗工具 OpenRefine简介

OpenRefine简介

目前有三款免费的数据清洗工具:OpenRefine,Weka,Data Wrangler。下面主要介绍OpenRefine。

● OpenRefine前身是谷歌公司(Google) 开发的数据清洗工具GoogleRefine,
随后于2012年开放源代码,改为现在的OpenRefine
● 一款基于计算机浏览器的数据清洗软件
● 在数据清洗、数据探索以及数据转换方面非常有效的一个格式化工具

●它是一个开源的网络应用,可以在计算机中直接运行,这样可以避开上传指
定信息到外部服务器的问题
●它类似于传统Excel处理软件,但是工作方式更像是数据库,以列和字段的
方式工作,而不是以单元格的方式工作
●下载地址: http://openrefine.org/download.html

OpenRefine操作界面

在这里插入图片描述

OpenRefine数据清洗案例

OpenRefine运行

解压下载的文件后,直接打开.exe应用程序:
在这里插入图片描述
然后会出现以下命令行:
在这里插入图片描述
稍等片刻便会自动弹出默认浏览器显示OpenRefine,OpenRefine使用的是计算机的3333接口,所以如果没有自动弹出也没事,可以直接在浏览器输入127.0.0.1:3333,关掉OpenRefine可以使用Ctrl+C,也可以直接关闭浏览器。
在这里插入图片描述
下面从以下几个方面对OpenRefine进行介绍:
在这里插入图片描述

配置语言

可以点击Language Settings进行语言选择:选择简体中文
在这里插入图片描述

新建项目

新建项目:在OpenRefine中导入数据集

支持多种格式的数据文件,如:
TSV、CSV、 JSON、MS Excel文件(包括XLS和XLSX文件) 、logs. 开放文
档格式(Open Document Format,ODF)以及spreadsheets 、XML和资
源描述框架(Resource Description Framework, RDF)等

多种导入数据方式:
本地计算机:从本地选择文件导入
网址:直接从网上的数据源导入数据
剪贴板:直接将数据进行复制粘贴
Google Data:提供Google Spreadsheet或者Fusion Table接口
在这里插入图片描述

导入数据

点击新建项目,导入数据
在这里插入图片描述

数据展示
  1. 数据的总行数
  2. 显示选项
  3. 列名称:如Record ID
  4. 具体数据

在这里插入图片描述

导出项目

点击右上角“导出”,选择“导出项目”

在这里插入图片描述

撤销重做

进行多步操作之后,若要恢复到操作之前,可在撤销/重做中进行,蓝色选中部分就是要撤销的操作:

在这里插入图片描述

OpenRefine Expression Language(GREL)

●GREL语言为OpenRefine的内建语言
●可与正则表达式结合进行数据转换
●GREL两种基本的函数格式为:
functionName(arg0, arg1, …)
arg0.functionName(arg1, …)

字符串操作
●startsWith(string s, string sub):判断string s是否以string sub为起始字符串,
返回布尔类型
例如:startsWith( “food” ,“foo” )返回true
●endsWith(string S, string sub):判断string s是否以string sub为终止字符串,返回布尔类型
例如:endsWith( “food” ,“ood” )返回true
●contains(string s, string sub);判断string s是否包含string sub字符串,返回布尔类型
例如:contains( “food”,"oo” )返回true
●toLowercase(string s):将s转换为小写
●toUppercase(string s):将s转换为大写
●toTitlecase(string s):将s转换为每个词的首字母大写
例如:toTitlecase( “Once upon a midnight dreary” )返回Once Upon A Midnight Dreary
查找替换
●indexOf(string s, string sub):返回子字符串第- -次出现在s中的字符位置, 如果没有,返回-1
例如:indexOf(“internationalization”, “nation”) returns 5
●lastIndexOf(string s, string sub):返回子字符串最后一次出现在s中的字符位置,如果没有,返回-1
例如:lastlndexOf( “parallel” ,“a” )返回3
●replace(string s, string f, string r):返回将s中的f替换为r之后的字符串
例如:replace(“The cow jumps over the moon and moos”, “o0”, “ee”)返回The cow jumps over the meen and mees.
子字符串
●substring(s, number from, optional number to)返回起始位置为number from,终止位置为optional number to的子字符串,如果没有终止位置,直到字符串结束
例如:substring( “profound” , 3)返回found
substring( “profound” , 2, 4)返回of

声明:本博文内容为学习完数据酷客中的数据清洗课程后所总结,建议大家学习数据酷客上面的课程。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章