輕輕鬆鬆!讓你的數據預處理提速3倍!

信息爆炸的時代,大數據是我們最經常聽到的詞語,在商業中數據存在其價值,每個人瀏覽過的網頁、搜索的產品,都可以變成企業的用戶數據。在大數據時代,商業生態環境不斷地發生着巨大變化。在數據爆炸的時代,我們就要對數據進行一定的處理,以便分辨出對我們有價值的數據,這就需要用到數據分析和數據挖掘。

而在數據挖掘中,海量的原始數據存在着大量不完整、不一致、有異常的數據,嚴重影響到數據挖掘建模的執行效率,甚至可能導致挖掘結果的偏差,所以進行數據預處理就顯得尤爲重要。數據挖掘中的“苦力工種”就是我們的數據預處理,數據預處理不但可以提高數據的質量,還能讓數據更好地適應特定的挖掘技術或工具。

如何高效簡潔自助處理數據?只要藉助簡單的工具就可以實現了。例如:Smartbi輕量級ETL功能

它是可視化流程配置,簡單易用,業務人員都能參與;

它無需單獨部署,允許將數據準備的結果,以數據表方式直接提供給BI使用;

它能夠處理海量數量,提高數據處理的性能。

這塊強大數據處理功能不僅支持異構數據,還內置排序、去重、映射、行列合併、行列轉換聚合、去空值等等數據預處理功能,滿足客戶日常數據處理的需要。

下面我選幾個數據預處理功能給大家介紹一下:

過濾和映射

過濾和映射是指根據用戶需求,通過寫SQL語句(片段)的方式,對數據集中指定字段進行條件篩選過濾。

如下圖,原先示例數據源的輸出結果有150條數據,對其進行過濾與映射,設置過濾器的表達式:[Species]='versicolor' ,即只輸出Species爲versicolor的數據。

輕輕鬆鬆!讓你的數據預處理提速3倍!

我們通過可視化流程操作,拖拽過濾器映射對象,通過設置過濾器條件來實現,如下圖:

輕輕鬆鬆!讓你的數據預處理提速3倍!

去除重複值

去除重複值是用於刪除數據集中的重複行(假如有兩行相同,保留其中一行)。也是數據處理中比較常見的要求。

如下示例,原先關係數據源的輸出結果有9條數據,對其進行去除重複值,在選擇列彈框中選擇所有的列。

輕輕鬆鬆!讓你的數據預處理提速3倍!

我們通過可視化流程操作,拖拽 去除重複值 對象,對其參數進行選擇列設置來實現,如下圖:

輕輕鬆鬆!讓你的數據預處理提速3倍!

空值處理

空值處理節點是將空值替換爲均值、最大頻數或者用戶自定義的值等,實現空值的填充或者過濾。空置處理的替換值包括最大值、最小值、平均值、中位數、按空值百分比刪除列、出現頻率最多替換、指定值、過濾整行,用於滿足不同的用戶需求。

我們來看一個示例:我們將空值處理爲該列出現頻率最多的值,例如number出現頻率最多的值爲“4”,則空值經過處理後變成“4”;count出現頻率最多的值爲“100”,則空值經過處理後變成“100”。

輕輕鬆鬆!讓你的數據預處理提速3倍!

我們通過可視化操作拖拽 空值處理 對象對原先 數據源 進 行空值處理,設置如下圖,存在空值,對其進行空值處理,選擇列:number、count,空值處理爲“出現頻率最多替換”。

輕輕鬆鬆!讓你的數據預處理提速3倍!

行轉列/列轉行

行轉列是用於實現將數據結果的行轉換成列。列轉行是用於實現將數據結果的列轉換成行。

下面我們舉一個行轉列的例子。如下圖,原先數據集有4條數據,對其進行行轉列。

輕輕鬆鬆!讓你的數據預處理提速3倍!

我們通過可視化操作拖拽 行轉列 對象對原先數據源進行空值處理,設置如下圖,設置選擇要的列爲“科目”,請選擇值列爲“分數”,聚合方式爲“最大值”。

除了以上功能,Smartbi數據預處理功能還有采樣、拆分、JOIN、排序、合併列/合併行、增加序號列、聚合、派生列等,有興趣的小夥伴可以到我們wiki上學習使用哦!

使用這些預處理功能處理完成的數據,我們就可以輸出到目標源中了。

數據預處理的確是數據挖掘中的“髒活累活”,但這不代表不能用技術的力量提高這部分工作的效率。我們對於數據預處理的需求已經日益增加,海量的數據每天都充斥在我們眼前,如何將數據價值發揮到最大,就需要我們切實地做好數據預處理。既然有工具可以方便幫我們解決數據預處理,又能保證數據安全,我們何樂而不爲呢?

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章