輕輕鬆鬆！讓你的數據預處理提速3倍！

原創

2021-02-05 09:15

信息爆炸的時代，大數據是我們最經常聽到的詞語，在商業中數據存在其價值，每個人瀏覽過的網頁、搜索的產品，都可以變成企業的用戶數據。在大數據時代，商業生態環境不斷地發生着巨大變化。在數據爆炸的時代，我們就要對數據進行一定的處理，以便分辨出對我們有價值的數據，這就需要用到數據分析和數據挖掘。

而在數據挖掘中，海量的原始數據存在着大量不完整、不一致、有異常的數據，嚴重影響到數據挖掘建模的執行效率，甚至可能導致挖掘結果的偏差，所以進行數據預處理就顯得尤爲重要。數據挖掘中的“苦力工種”就是我們的數據預處理，數據預處理不但可以提高數據的質量，還能讓數據更好地適應特定的挖掘技術或工具。

如何高效簡潔自助處理數據？只要藉助簡單的工具就可以實現了。例如：Smartbi輕量級ETL功能

它是可視化流程配置，簡單易用，業務人員都能參與；

它無需單獨部署，允許將數據準備的結果，以數據表方式直接提供給BI使用；

它能夠處理海量數量，提高數據處理的性能。

這塊強大數據處理功能不僅支持異構數據，還內置排序、去重、映射、行列合併、行列轉換聚合、去空值等等數據預處理功能，滿足客戶日常數據處理的需要。

下面我選幾個數據預處理功能給大家介紹一下：

過濾和映射

過濾和映射是指根據用戶需求，通過寫SQL語句(片段)的方式，對數據集中指定字段進行條件篩選過濾。

如下圖，原先示例數據源的輸出結果有150條數據，對其進行過濾與映射，設置過濾器的表達式：[Species]='versicolor' ，即只輸出Species爲versicolor的數據。

我們通過可視化流程操作，拖拽過濾器映射對象，通過設置過濾器條件來實現，如下圖：

去除重複值

去除重複值是用於刪除數據集中的重複行（假如有兩行相同，保留其中一行）。也是數據處理中比較常見的要求。

如下示例，原先關係數據源的輸出結果有9條數據，對其進行去除重複值，在選擇列彈框中選擇所有的列。

我們通過可視化流程操作，拖拽去除重複值對象，對其參數進行選擇列設置來實現，如下圖：

空值處理

空值處理節點是將空值替換爲均值、最大頻數或者用戶自定義的值等，實現空值的填充或者過濾。空置處理的替換值包括最大值、最小值、平均值、中位數、按空值百分比刪除列、出現頻率最多替換、指定值、過濾整行，用於滿足不同的用戶需求。

我們來看一個示例：我們將空值處理爲該列出現頻率最多的值，例如number出現頻率最多的值爲“4”，則空值經過處理後變成“4”；count出現頻率最多的值爲“100”，則空值經過處理後變成“100”。

我們通過可視化操作拖拽空值處理對象對原先數據源進行空值處理，設置如下圖，存在空值，對其進行空值處理，選擇列：number、count，空值處理爲“出現頻率最多替換”。

行轉列/列轉行

行轉列是用於實現將數據結果的行轉換成列。列轉行是用於實現將數據結果的列轉換成行。

下面我們舉一個行轉列的例子。如下圖，原先數據集有4條數據，對其進行行轉列。

我們通過可視化操作拖拽行轉列對象對原先數據源進行空值處理，設置如下圖，設置選擇要的列爲“科目”，請選擇值列爲“分數”，聚合方式爲“最大值”。

除了以上功能，Smartbi數據預處理功能還有采樣、拆分、JOIN、排序、合併列/合併行、增加序號列、聚合、派生列等，有興趣的小夥伴可以到我們wiki上學習使用哦！

使用這些預處理功能處理完成的數據，我們就可以輸出到目標源中了。

數據預處理的確是數據挖掘中的“髒活累活”，但這不代表不能用技術的力量提高這部分工作的效率。我們對於數據預處理的需求已經日益增加，海量的數據每天都充斥在我們眼前，如何將數據價值發揮到最大，就需要我們切實地做好數據預處理。既然有工具可以方便幫我們解決數據預處理，又能保證數據安全，我們何樂而不爲呢？

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.