《Using OpenRefine》翻譯~1

總覽

無論是現今的大數據還是企業內部的小數據,都存在一些普遍的問題,如數據格式不對需要轉換,一個單元格內包含多個含義的內容,包含重複項等等,雖然我們也可以使用excel解決,但是excel天生有諸多限制,比如其爲直接對數據進行操作,容易導致誤操作;數據量大會處理緩慢;透視表功能太過簡單;無法進行高級的數據分類分析。而OpenRefine很好的解決了以上問題,最重要的一點是它還是免費的!!

附:

英文原著下載鏈接:http://pan.baidu.com/s/1mi3FkO4

OpenRefine2.7安裝包:http://pan.baidu.com/s/1jIzF2HC

英文原著隨書源碼示例文件:http://pan.baidu.com/s/1gfcfb7l

注意:直接訪問官方網站是無法訪問的,因爲被牆了,所以如果想訪問,就只能某寶上買個翻牆軟件,現在淘寶也在封關鍵詞,我試了下,搜vp能夠找到大笑


《使用OpenRefine》

目錄

第一章初識OpenRefine 5

介紹OpenRefine 5

要點1:安裝OpenRefine 6

WINDOWS 7

MAC 7

LINUX 7

要點2:創建一個新項目 7

OpenRefine支持的文件類型 9

要點3:探索數據 10

要點4:操縱列 11

列隱藏和展開 11

移動列 12

重命名或刪除列 13

要點5:使用項目操作歷史 14

要點6:導出項目 16

要點7:獲取更多的運行內存 18

Windows 18

Mac 18

Linux 18

小結 19

第二章:分析和修改數據 19

1-數據排序 20

對行進行重新排序 22

2-數據透視 22

文本透視 23

數字透視 25

定製透視 28

對標星和標旗行進行透視 31

3-重複檢測 31

4-應用一個文本過濾 34

5-使用簡單單元格轉換 35

6-刪除匹配行 38

小結 41

第三章:高級數據操作 41

1:對多值單元格的處理 41

2:行模式和記錄模式的轉換 44

3:相似單元格聚類 47

4:單元格值轉換 50

5:增加源列 53

6:拆分列 54

7:行列轉換 56

小結 58

第四章:數據集關聯 59

•點1-使用Freebase解析值 59

•點2-安裝擴展包 63

•點3-增加解析服務 65

•點4-與關聯數據進行解析 67

•點5-抽取單名稱項 70

小結 73

第五章:正則表達式和GREL 74

對文本應用正則表達式 74

字符集 75

數量符 77

錨符 79

可選符 79

組符 80

小結 80

GREL 81

數據轉換 82

創建自定義透視功能 83

GREL排障 85


第一章初識OpenRefine

本章中,我們會說明OpenRefine是用來幹什麼的?爲什麼我們需要用它?並且怎麼用它。簡單介紹後,我們會通過七個基本小點讓你初嘗OpenRefine的魅力。

◎安裝OpenRefine

◎創建一個項目

◎探索你的數據

◎操縱列

◎使用項目歷史

◎輸出項目

◎充分利用內存

雖然每個點都相對獨立,我們還是建議新讀者按照我們的順序學習,最起碼開始的幾點需要如此,因爲這幾點中我們提供了軟件操作的重要信息。有經驗的高級讀者可以按照自己喜歡自由選擇。

 

 

介紹OpenRefine

 

我們需要承認這樣一個事實:你的數據是不完美的,所有的數據都是不完美的。無論你多麼小心地建立數據,錯誤總會偷偷溜進你的數據中。如果是多人共同創建或者已經幾經轉手,那麼錯誤更加無法避免。無論你的數據本來就是數字化的,還是通過傳統刊物數字化轉換而來的,無論它們存儲在excel表中還是數據庫中,數據中的錯誤總是無法避免。

確認錯誤是保證數據質量的第一步,主要包括數據畫像和數據清洗。

數據畫像 Olson定義爲:使用統計方法發現數據的結構、內容、質量。換句話說,這是一種對你的數據進行畫像,預發現包含的錯誤信息的方法。

數據清洗 用半自動化的方式改正畫像過程中發現的錯誤,比如:刪除缺失和重複值、行過濾透視、值聚類及轉換、單元格拆分等等。

鑑於後續章節都需要保證數據已經畫像清洗過,數據轉換工具(IDTS)能夠快速廉價的在一個操作界面內處理大量的數據問題,即使處理人員缺乏專業技術背景,所以IDTS也就成爲了首選。

OpenRefine就是這樣一個IDTS工具,其能夠對數據進行可視化操作處理。它很像傳統的excel軟件,但其工作方式更像數據庫,因其並不是處理單獨的單元格,而是處理列和字段。這意味着OpenRefine對於增加新行內容表現不佳,但對於探索、清洗、整合數據卻功能強大。

第一章的要點介紹將幫助您熟悉OpenRefine的主要功能,從導入導出數據到數據探索,從歷史操作使用到內存管理。

 

 

要點1:安裝OpenRefine

本點中,您將學習如何下載最新版本的OpenRefine和如何在你喜歡的操作系統中運行軟件。

讓我們開始吧:請從http://OpenRefine.org下載軟件,OpenRefine原來叫做Freebase Gridworks。後來幾年使用名稱爲Google refine。2012年10月後,這個軟件被社區接手,使其真正成爲開源軟件。

OpenRefine2.6是使用新名稱後的第一個版本,如果你對開發版本感興趣,可以訪問:https://github.com/OpenRefine。

OpenRefine基於JAVA環境,也就是說和操作系統無關,你只需要保證你的電腦上安裝了最新版的JAVA環境(可以到http://java.com/download下載),然後根據你的操作系統按對應步驟操作:

WINDOWS

1、下載zip壓縮包

2、解壓到指定文件夾

3、雙擊OpenRefine.exe運行

 

MAC

1、下載DMG壓縮鏡像文件

2、打開壓縮鏡像文件,把OpenRefine圖標拖到程序文件夾

3、雙擊OpenRefine圖標打開

 

LINUX

1、下載gzipped壓縮包

2、解壓到根目錄

3、在命令行窗口輸入./refine打開

 

我們需要了解,默認情況下,OpenRefine會分配1G內存給JAVA,處理小數據集是足夠用了,但是處理大數據集就會捉襟見肘。在要點7:充分利用內存 中,我們會討論如何讓OpenRefine處理更大的數據,不同的操作系統有不同的方法。

要點2:創建一個新項目

在本點中,你會學到如何導入數據到OpenRefine,可以是新建一個項目並導入數據集,也可以是打開一個項目或者是導入別人創建的項目。

如果你按照 要點1 已經成功安裝了OpenRefine並打開,你會發現OpenRefine是在你的默認瀏覽器中打開的,但是你需要知道:程序是在本地運行的,除了在本書附錄中要使用額外功能(如正則表達式、openrefine內建函數語言GREL)外,你並不需要上因特網。在使用因特網時,請確保敏感數據不會被在線存儲或分享。OpenRefine使用本地電腦的3333端口,這也意味着,你可以鍵入http://localhost:3333或http://127.0.0.1:3333打開軟件。

以下是你第一次打開OpenRefine的界面:


左側有三個標籤頁:

●Create Poject(創建項目):這個選項將載入一個數據集到OpenRefine中,這也是你第一次使用OpenRefine想要做的,如上圖所示,有多種可選形式讓你導入數據。

◎This Computer(本機):選擇本機中存儲的一個文件

◎Web Addresses(URLs)(網址):從在線資源導入數據

◎Clipboard(剪切板):通過複製-粘帖方式輸入數據

◎Google Data(Google數據):從Google sheet或Fusion Table導入(這兩個類似於excel,不過是在線的,所以需要有因特網連接)

●Open Project(打開一個項目):這個選項幫助你定位先前創建的項目,下次你打開OpenRefine,會出現一個已存在項目的列表,你可以選擇一個繼續先前的工作。

●Import Project(導入一個項目):使用這個選項,我們可以直接導入一個已有的OpenRefine存檔,其可以讓你打開別人創建的項目,並且包含項目創建後所有的數據操作記錄。


下一篇:《Using OpenRefine》翻譯~2


發佈了15 篇原創文章 · 獲贊 16 · 訪問量 6萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章