Tableau-prep概覽

一、何時使用Tableau Prep

可以說,Tableau Desktop中的數據整理功能,Prep全部都能完成,而且往往效果會更好;反之則不行。在以下的情形下,推薦優先甚至只能使用Tableau Prep整理:

1、數據整理過程,需要對數據做深度處理,比如非常多的錯誤值需要清理,大量的0值或者null需要排除——關鍵是,所需要清理的數據量非常大時。

這些功能desktop亦能完成,但是Prep更有效率,可以避免大量的清理運算對desktop可視化造成的性能壓力,體現到Server端就是提高了數據訪問者的流暢性。昨天在客戶那裏,500M的Excel表格,12列轉置後相當於增加了11倍數據,然後清除0值,輸出的hyper文件卻只有80M,輸出耗時大約5分鐘。如果同樣的操作放在desktop中完成,再發布到Server中提供共享訪問,因爲數據清理所帶來的時間浪費,隨着訪問用戶的增加,可以理解爲是倍數級別的。

謹記:從效率和性能方面看,區分數據整理和數據可視化兩個環節,幾乎總是有意義的。

2、爲了提高可視化的性能,需要大幅度調整數據源的聚合級別並選擇部分數據字段

在這裏,Prep擔當了搭建臨時的數據倉庫(或者理解爲數據緩存)的作用。我們知道數據是有詳細級別的,不是每次數據聚合(比如過去各月各區域貢獻的銷售額)都要從最細的數據粒度來計算求和,這樣會影響數據加載和分析性能。

比如我們要做零售終端的貢獻分析,我們的很多報表都可以從一個臨時表來生成——各零售終端在每個月在每個商品的貢獻,我們可以把這個詳細級別標記爲:終端*月份*商品。爲此,我們可以使用prep的聚合功能,提前創建一個臨時聚合表,把最細的數據詳細級別數據(比如:終端*精確時間*商品*批次*會員)提前聚合到想要的級別(精確時間——> 月份,不保留會員和批次信息)。這樣每個月的數據量很可能壓縮到之前的1/10,並且可以刪除不用的無關字段,這樣的數據會非常顯著地提高數據可視化過程中的效率。

3、涉及到多次數據連接,並且是在不同階段做數據連接

數據聯結是數據整理必備的技能,簡單的聯結可以直接在desktop中完成,但是如果要多個數據源多次聯結,特別是在一個數據源整理的不同階段做聯結,desktop就束手無策了,這正是Prep大放光彩的時刻。

Prep在此方面有幾個地方絕對讓人過目不讓:

  • 直觀查看連接結果,包括各部分的連接記錄數和連接明細;並可基於結果立刻整理;
  • 通過拖拽輕鬆實現多次連接,更有效率。
  • 連接和整理過程通過流程保存,過程可以重複使用。

4、需要使用行轉列功能,或者列轉行兩次及以上(嵌套表頭)

 

數據整理階段總會遇到很多不符合“數據庫範式”的數據,這需要結構上的整理,比如把很多的列轉爲行顯示——特別是所謂的“寬表”,經常用一列代表一個月份或者一個同類的主題。

而在少數情況下,我們還需要行轉爲列——主要是報表展示的需要。Desktop在數據源的層面僅能執行一次列轉行操作,而多次轉置和行轉列是Prep獨有的功能,加上Prep可以在一個流程的多個地方執行轉置,在轉置方面就更加強大。

二、如何優雅的使用Tableau Prep

作爲Prep最早的一批粉絲和深度用戶,說明一下幾個關鍵點。

1、 把篩選操作儘可能提前

在任何時候,減少數據的大小都是有意義的。在新版本的Tableau Prep中,進一步增加了“數據篩選”的功能,可以直接通過計算字段保留數據,或者通過多選輕鬆清除數據。(Tableau Prep Builder 2019.2.3超級棒新功能 

不過這裏提供一個預防性的建議:儘可能不要在數據源的層面隱藏數據字段,而是放到下一次清理環節中使用“移除”字段來代替。爲什麼呢?我和我的客戶都遇到過類似的情境:可能是bug或者數據源支持的問題,當你的數據源字段增加時,Prep往往不能自動加入這些新字段,相當於只在原來的框架中增量更新,不會自動擴展字段的多少。這種情況下,刷新數據源無效果,只能重建數據源連接,重建的代價就是第一個環節的設置會消失,此前手動隱藏的字段就會重現天日,不得不重新點擊一遍。

2、多使用數據聚合,分層看需求,分層準備數據,養成建立數據倉庫的習慣

數據聚合是提高性能的核心操作,養成根據分析需要建立數據倉庫的概念,會幫助分析師理清數據的層次性、提高可視化過程的效率、減少可視化過程中的複雜運算(LODs)。這也是tableau Prep數據整理的核心落腳點。

“數據是有層次性的”,每個層次代表的是一種視角、一種高度和一種業務場景。數據可視化幫助我們建立全覽視角,數據聚合幫助我們從數據層面清晰化。完美搭配~

 

 

3、建議:每個流程只做一種操作及其相關操作

雖然Tableau倡導“在任何步驟中應用清理操作”,但是我想同時給出的建議是“不要濫用Tableau軟件的易用性”,否則只會增加混亂。從設計的角度看,從使用的經驗總結看,儘可能只在一個環節執行一種操作及其緊密關聯的整理。比如數據轉置環節,那就僅僅做轉置和轉置後的字段重命名;數據聚合環節,僅僅做數據聚合,除非是聚合的需要,不要在這個環節更改字段名稱。

Prep的功能只有幾大類:數據整理、數據連接Join、數據並集Union、數據聚合、數據轉置,努力讓每個環節都具有實質性的意義。

 

 

 

4、使用顏色和說明,記錄流程,便於覆盤

在prep中,有幾個特別主要的指示牌:流程標題、說明和顏色。在數據連接、數據並集中,顏色是最好的指示牌,我們甚至不需要記住兩側數據的名字了。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章