數據清洗工具 OpenRefine簡介

OpenRefine簡介

目前有三款免費的數據清洗工具:OpenRefine,Weka,Data Wrangler。下面主要介紹OpenRefine。

● OpenRefine前身是谷歌公司(Google) 開發的數據清洗工具GoogleRefine,
隨後於2012年開放源代碼,改爲現在的OpenRefine
● 一款基於計算機瀏覽器的數據清洗軟件
● 在數據清洗、數據探索以及數據轉換方面非常有效的一個格式化工具

●它是一個開源的網絡應用,可以在計算機中直接運行,這樣可以避開上傳指
定信息到外部服務器的問題
●它類似於傳統Excel處理軟件,但是工作方式更像是數據庫,以列和字段的
方式工作,而不是以單元格的方式工作
●下載地址: http://openrefine.org/download.html

OpenRefine操作界面

在這裏插入圖片描述

OpenRefine數據清洗案例

OpenRefine運行

解壓下載的文件後,直接打開.exe應用程序:
在這裏插入圖片描述
然後會出現以下命令行:
在這裏插入圖片描述
稍等片刻便會自動彈出默認瀏覽器顯示OpenRefine,OpenRefine使用的是計算機的3333接口,所以如果沒有自動彈出也沒事,可以直接在瀏覽器輸入127.0.0.1:3333,關掉OpenRefine可以使用Ctrl+C,也可以直接關閉瀏覽器。
在這裏插入圖片描述
下面從以下幾個方面對OpenRefine進行介紹:
在這裏插入圖片描述

配置語言

可以點擊Language Settings進行語言選擇:選擇簡體中文
在這裏插入圖片描述

新建項目

新建項目:在OpenRefine中導入數據集

支持多種格式的數據文件,如:
TSV、CSV、 JSON、MS Excel文件(包括XLS和XLSX文件) 、logs. 開放文
檔格式(Open Document Format,ODF)以及spreadsheets 、XML和資
源描述框架(Resource Description Framework, RDF)等

多種導入數據方式:
本地計算機:從本地選擇文件導入
網址:直接從網上的數據源導入數據
剪貼板:直接將數據進行復制粘貼
Google Data:提供Google Spreadsheet或者Fusion Table接口
在這裏插入圖片描述

導入數據

點擊新建項目,導入數據
在這裏插入圖片描述

數據展示
  1. 數據的總行數
  2. 顯示選項
  3. 列名稱:如Record ID
  4. 具體數據

在這裏插入圖片描述

導出項目

點擊右上角“導出”,選擇“導出項目”

在這裏插入圖片描述

撤銷重做

進行多步操作之後,若要恢復到操作之前,可在撤銷/重做中進行,藍色選中部分就是要撤銷的操作:

在這裏插入圖片描述

OpenRefine Expression Language(GREL)

●GREL語言爲OpenRefine的內建語言
●可與正則表達式結合進行數據轉換
●GREL兩種基本的函數格式爲:
functionName(arg0, arg1, …)
arg0.functionName(arg1, …)

字符串操作
●startsWith(string s, string sub):判斷string s是否以string sub爲起始字符串,
返回布爾類型
例如:startsWith( “food” ,“foo” )返回true
●endsWith(string S, string sub):判斷string s是否以string sub爲終止字符串,返回布爾類型
例如:endsWith( “food” ,“ood” )返回true
●contains(string s, string sub);判斷string s是否包含string sub字符串,返回布爾類型
例如:contains( “food”,"oo” )返回true
●toLowercase(string s):將s轉換爲小寫
●toUppercase(string s):將s轉換爲大寫
●toTitlecase(string s):將s轉換爲每個詞的首字母大寫
例如:toTitlecase( “Once upon a midnight dreary” )返回Once Upon A Midnight Dreary
查找替換
●indexOf(string s, string sub):返回子字符串第- -次出現在s中的字符位置, 如果沒有,返回-1
例如:indexOf(“internationalization”, “nation”) returns 5
●lastIndexOf(string s, string sub):返回子字符串最後一次出現在s中的字符位置,如果沒有,返回-1
例如:lastlndexOf( “parallel” ,“a” )返回3
●replace(string s, string f, string r):返回將s中的f替換爲r之後的字符串
例如:replace(“The cow jumps over the moon and moos”, “o0”, “ee”)返回The cow jumps over the meen and mees.
子字符串
●substring(s, number from, optional number to)返回起始位置爲number from,終止位置爲optional number to的子字符串,如果沒有終止位置,直到字符串結束
例如:substring( “profound” , 3)返回found
substring( “profound” , 2, 4)返回of

聲明:本博文內容爲學習完數據酷客中的數據清洗課程後所總結,建議大家學習數據酷客上面的課程。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章