數據清洗工具OpenRefine

作者:chszs,轉載需註明。博客主頁:http://blog.csdn.net/chszs

數據經常被稱爲一座金礦,尤其是在當今數據驅動的經濟環境下更是如此。
怎樣把數據集在OpenRefine中進行轉換,優化數據的質量以便於在真實場景下重用它們。

一、介紹OpenRefine


我們來看一個殘酷的現實:你的數據是雜亂無章的。錯誤會散步到你的大數據集中,無論你有多麼細心,錯誤總是存在。數據量越大,錯誤越多。

正確且清晰地認識以上的現狀,是我們開始使用OpenRefine的前提。於是有了數據質量的說法。
下面先熟悉三個基礎概念。

數據剖析Data Profiling:也叫做數據考古(Data Archeology),是數據集(Data Set)內部爲達一致性、單值性和邏輯性而進行的數值質量的統計分析及評估。數據剖析是Olson於2003年提出的概念,使用分析技術來發現正確的、結構化的、有內容、有質量的數據。換句話說,它是評估你的數據和信息的當前狀態以及包含了多少錯誤的方法。

數據清洗Data Cleaning:是嘗試通過移除空的數據行或重複的數據行、過濾數據行、聚集或轉換數據值、分開多值單元等,以半自動化的方式修復錯誤數據的過程。數據清洗是一個反覆的過程,不可能在幾天內完成,只有不斷的發現問題,解決問題。對於是否過濾,是否修正一般要求客戶確認。

IDTs:Interactive Data Transformation tools,交互數據轉換工具,它可以對大數據進行快速、廉價的操作,使用單個的集成接口。

OpenRefine就是這樣的IDT工具,可以觀察和操縱數據的工具。它類似於傳統Excel的表格處理軟件,但是工作方式更像是數據庫,以列和字段的方式工作,而不是以單元格的方式工作。這意味着OpenRefine不僅適合對新的行數據進行編碼,而且功能還極爲強大。

二、安裝OpenRefine

要學習OpenRefine,首先需要下載最新版本的OpenRefine。
下載地址:http://openrefine.org/
OpenRefine最早是衆所周知的Freebase Gridworks,隨後又變成Google Refine,幾年後又被社區接管,在2012年10月變成了徹底開源的OpenRefine。
OpenRefine 2.6版是它改名爲OpenRefine的第一個發行版本。
如果你對OpenRefine的開發版感興趣,可以訪問:https://github.com/OpenRefine.OpenRefine
OpenRefine基於Java環境,因此是跨平臺的。

OpenRefine 2.6版目前還處於Beta1版,也是所謂的開發版,不適合在生產環境中使用。如果要選擇穩定版,那麼還是該下載Google Refine 2.5版。

1、OpenRefine在Windows的安裝
1)下載ZIP包,地址:https://github.com/OpenRefine/OpenRefine/releases/download/2.5/google-refine-2.5-r2407.zip ;
2)解壓到某個目錄;
3)要運行OpenRefine,雙擊openrefine.exe文件。


2、OpenRefine在Mac的安裝

1)下載DMG文件:https://github.com/OpenRefine/OpenRefine/releases/download/2.5/google-refine-2.5-r2407.dmg ;
2)打開磁盤鏡像,拖動OpenRefine的圖標到Applications目錄;
3)雙擊圖標以啓動OpenRefine。

3、OpenRefine在Linux的安裝
1)下載gzipped包:https://github.com/OpenRefine/OpenRefine/releases/download/2.5/google-refine-2.5-r2407.tar.gz ;
2)解壓到當前用戶的home目錄;
3)在終端命令行環境,鍵入./refine以啓動OpenRefine。



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章