《Using OpenRefine》翻譯~5

上一篇:《Using OpenRefine》翻譯~4

要點7:獲取更多的運行內存

最後一點,我們將學習如何如何分配更多的運行內存以操作更大的數據集。

對於大數據集,你會發覺OpenRefine會運行緩慢或者提示內存不夠。這表明你需要分配更多的內存給OpenRefine。和我們上面學習的內容相比,這個內容稍顯複雜,因爲這需要牽扯到一點底層修改。但是不要擔心:我們會指導你如何去做。具體的操作步驟根據不同的操作系統有所不同。注意:你可以分配給OpenRefine多大內存取決於你的電腦和JAVA版本是32位還是64位。如果不清楚究竟需要分配多少才合適,就試着慢慢的增加運行內存數量來看看效果(如果每次增加1G)。

Windows

Windows平臺,你可以在OpenRefine的文件夾中找到openrefine.l4j.ini文件,找到以-Xmx(對於JAVA來說表示最大內存數)開始的那行,默認情況下分配內存爲1024M。稍稍改大點,比如2048M。保存後下次你打開OpenRefine就能夠生效。

Mac

對於Mac平臺就有點複雜,因爲Mac電腦的操作系統將配置文件隱藏了。首先關閉OpenRefine,按住control鍵然後點擊OpenRefine圖標,在彈出菜單中選擇Show package contents,然後在Contents文件夾中找到info.plist文件並打開,然後在其中找到VMOptions項(這就是JAVA虛擬機設置項)。找到以-Xmx開頭的設置項,將默認的1024M按你的需要修改,比如-Xmx 2048M。

Linux

你可能會覺得奇怪,修改運行內存在Linux中十分簡單,平時你打開OpenRefine是使用命令./refine,試着使用./refine –m 2048M。這裏的2048M就是想分配的內存。如果你想永久的修改運行內存,你可以在根目錄中找到隱藏文件.bashrc,然後在其中添加一個alias別名即可,代碼如下:

alias refine='cd path_to_refine ; ./refine -m 2048M'

這裏的path_to_refine是OpenRefine的安裝目錄,下次你依舊只需要使用./refine命令打開OpenRefine,其自動就會分配2048M內存。

小結

通過本章內容的學習,你已經瞭解了OpenRefine,一種新的具有數據畫像、清洗、轉換等等功能的工具,現在你已經在你的電腦上安裝上了OpenRefine,並且已經瞭解如何在創建新項目中導入數據和如何在完成操作後導出數據。行、列的運行機制你也已經瞭解,並且已知道如何使用項目歷史記錄。另外你也對內存分配進行了操作,這能夠讓你操控更大的數據集。

雖然在開始操作你的數據集前好好的對你的數據進行全局性的觀察十分重要,但你可能已經迫不及待了。如果是這樣,那麼你已經對第二章:分析和修改數據做好了準備,這章中,你將學習到如何分析和修改你的數據所需要的基本操作的方方面面。


下一篇:《Using OpenRefine》翻譯~6

發佈了15 篇原創文章 · 獲贊 16 · 訪問量 6萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章