數據分析工具箱v1.2——交叉分類

將一個指標按單一維度進行分佈統計,是探索性數據分析的一個基本、常用的方向,可以快速發現數據規律——不過可能會有遺漏維度之間關係的風險,因此多維交叉分析對於深層、細緻的分析是有必要的。

如果多維交叉後的熵或者方差越大,則一般越容易發現insight。然而,對於n維數據集,聚合方式理論上有2^n種;儘管不是每一種組合都有鮮明的業務意義,不過每次都單獨跑數或者計算,顯然是一個比較大的成本。這個時候就需要數據平臺來支持數據分析,進行快速地、自由地、可視化地進行多維交叉分析,以便高效地發現結論。

上傳數據

老規矩,第一步先上傳數據。這裏依然上傳隨機構建的DAU數據。然後可以進行數據處理,也可以不處理。


交叉分類

基於用戶上傳的數據集,有3個下拉框。第1個可以選擇多個維度;第2個是聚合方式(支持count、count distinct、sum這三種函數);第3個是聚合變量,只能選1個,如果前面選擇的聚合函數是count或者count distinct,則這裏可選擇id型變量;如果前面選擇的聚合函數是sum,則這裏可選擇數值型變量。

(其實還可以多一個控件,支持用戶基於現有的字段,自定義標籤,用來構建新的維度。這對於數據產品來說是有必要的,因爲平臺沒有辦法把用戶感興趣的維度完全羅列,但可以開放一個窗口,支持用戶自己去添加維度。不過在這個數據產品demo中就不是很必要,因爲本來就是要自己上傳數據,需要什麼整理好再扔上來。好吧,其實真實的原因是我不會寫(沒找到可支持)這麼複雜的前端交互操作(的包)。)

選定一個聚合變量以及聚合方式後,可自由地選擇多個維度,下面自動展示可視化圖形。如果只選1個,則展現柱形圖;如果維度大於等於2個,則以alluvial diagram形式展示。

比如只看分渠道的DAU分佈。


比如只看分活躍度的DAU分佈。


當然,這2個維度也可以同時都選上,這樣就是看在渠道和活躍度2個維度交叉作用下,DAU的分佈。這時就出現了alluvial diagram,可以看到線條有紅色和藍色的——紅色的線條表示當前分解下的數據高於平均值,反之則爲藍色。每一個維度下的矩形高度,代表着當前維度值在該維度下的比例。

那麼進一步地,我們可以選3個乃至更多的維度,來做交叉分類分析。

顯而易見地,如果選擇的維度越多,維度的枚舉值越多,線條就越多,大部分的線條就細得看不清。而如前所述,倘若熵或者方差越大,則會有少數幾條相對較粗的線條格外顯眼——這就是需要關注的case!

有的時候線條太多太亂,看不出什麼有效信息的時候,就可以通過篩選條件對數據進行切片,過濾掉那些確定沒有太大意義的部分,再重新觀察分佈。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章