數據產品指北(五)— 大數據分析平臺

“其實只是對自己的學習和經驗做個總結,儘量言簡意賅。指的不好,還請包涵。”

如果說用戶行爲分析平臺是互聯網行業等線上業務特有的數據分析產品,那麼大數據分析平臺就是適用於全行業的數據分析產品。任何行業的公司發展和精進都離不開數據分析,而大數據分析平臺就是實現數據分析,爲業務人員提供分析能力的基礎產品。如果沒有該數據分析平臺,企業則不得不招聘專業的數據分析師完成全部的數據分析工作。一方面數據分析師的招聘門檻更高,一方面數據分析師對實際業務的瞭解程度也並不如運營、市場等業務方人員。所以更合理的做法是爲業務人員提供易用的數據分析產品,配合特定的數據分析培訓,以使業務同事可自行完成絕大部分數據分析需求。同時輔以數名數據分析師完成更專業的數據分析任務,產出數據報告或決策等關鍵信息。

大數據分析平臺是對大數據時代的數據分析產品(或稱作模塊)的泛稱,諸如業務報表、OLAP應用、BI工具等都屬於大數據分析平臺的範疇。與用戶行爲分析平臺相比,其分析維度更集中在覈心業務數據,特別是對於一些非純線上業務的領域,例如線上電商、線下零售、物流、金融等行業。而用戶行爲分析平臺會更集中分析與用戶及用戶行爲相關的數據。

企業目前實現大數據分析平臺的方法主要有三種:

1. 採購第三方相關數據產品。例如Tableau、Growing IO、神策等。此類產品能幫助企業迅速搭建數據分析環境,不少第三方廠商還會提供專業的技術支持團隊。但選擇此方法,在統計數據的廣度、深度和準確性上可能都有所侷限。例如某些主打無埋點技術的產品,只能統計到頁面上的一些通用數據。隨着企業數據化運營程度的加深,這類產品可能會力不從心。該方案適合缺少研發資源、數據運營初中期的企業。一般一些創業公司、小微企業可能會選擇此方案。

2. 利用開源產品搭建大數據分析平臺。筆者曾經待過的一家公司就是採用該方案搭建的OLAP應用。對於有一定開發能力的團隊,可以採用該方式快速且低成本地搭建起可用的大數據分析平臺。該方案的關鍵是對開源產品的選擇,選擇正確的框架,在後續的擴展過程中會逐步體現出優勢。而如果需要根據業務做一些自定義的開發,最後還是繞不過對源碼的修改。

3. 完全自建大數據分析平臺。對於中大型公司,在具備足夠研發實力的情況下,通常還是會自己開發相關的數據產品。自建平臺的優勢是不言而喻的,企業可以完全根據自身業務需要定製開發,能夠對業務需求進行最大化的滿足。對於平臺型業務,開發此類產品也可以進行對外的商業化,爲平臺上的B端客戶服務。例如淘寶官方推出的生意參謀就是這樣一款成熟的商用數據分析產品,且與淘寶業務和平臺優勢有非常強的結合。

接下來,本篇將重點介紹幾種不同階段的大數據分析平臺產品形態。

報表分析平臺

提到數據分析,很多人的第一反應應該都是報表。確實報表應該就是最基礎的數據分析工具,因此不少公司在搭建數據分析平臺時,也是先從滿足報表需求起步的。在平臺搭建初期,優先實現重要的固化報表沒有任何問題,但隨着業務的發展,對數據分析的需求會成倍增加,不可能一直靠業務新增查詢需求,數據團隊對前後端進行開發改動這種低效的方式來實現。

因此我們可以在報表平臺上開發一套擴展工具,用於完成對取數需求的條件配置。本質上是將日常業務查詢的SQL語句進行了產品化,並羅列了可支持的數據指標、維度、時間等信息。至此,報表平臺便擁有了直接新增報表的功能,業務人員可根據自身需求在平臺上配置所需的報表,而不用每次由研發團隊單獨開發。例如下圖是生意參謀中的新建報表功能,商家可以通過一系列的條件選擇完成報表的配置。

除去簡單的報表生成,我們還可以擴展圖表模塊,對報表進行可視化。可以選擇常見的圖表樣式,例如折線圖、柱狀圖、餅圖等。

不過受限於產品形態,所有的配置操作都是在既定的框架下完成的,研發人員需要事先在頁面上規定可選的維度、時間週期、指標的信息。若遇到對當前頁面還不支持的指標或維度的分析需求(在實際使用時會經常發生),仍需要進行開發,升級平臺。爲了滿足更定製化的查詢需求,該平臺也可以做到支持書寫SQL完成查詢。某種程度上來看,其實該階段的分析平臺對業務人員還不夠友好,可能更多時候是數據產品經理和數據分析師在進行使用,以滿足自身分析需求或承接業務的數據需求。爲了真正讓業務人員直接具備查詢、分析數據的能力,我們需要進入下一個階段。

自助分析平臺

如果說擴展後的報表平臺能很大程度的釋放研發生產力的話,搭建自助分析平臺將可以解放數據分析師的大量工作。自助分析平臺已經基本能滿足業務人員的全部數據查詢和分析需求了。當然,在平臺上線後還是需要組織適當的培訓,提供友好的產品說明文檔。

自助分析平臺是進一步將我們的數據查詢、分析語言產品化。與報表平臺相比,自助分析平臺至少有了以下進步:

1. 可以選擇數據源,可以在權限允許範圍內訪問數據源內全量的數據,並讀取數據源的數據結構,用於後續的查詢配置。例如定位到具體的數據倉庫。

2. 可以自由選擇數據指標和維度,構建Cube。即可以自由地選擇不同主題下的維度,作爲表格的行和列。行和列都支持維度的嵌套,構建層次化的索引。

3. 支持豐富的指標計算方式。與用戶行爲分析平臺類似,自助分析平臺也支持通過表達式對基礎指標進行計算,構建新的指標。在輸出結果時,也可以制定對指標的聚合方式,包括求和(SUM)、求平均(AVG)、累計求和(CUMSUM)、計數(COUNT)、求最大值(MAX)、求最小值(MIN)等常見的計算方式

4. 支持豐富的條件篩選。包括了最常用的時間段篩選,以及可在各個維度下通過一系列關鍵字組合設置篩選條件,例如大於(>)、等於(=)、小於(<)、不等於(!=)、在或不在某列表內(IN/NOT IN),在或不在某範圍內(BETWEEN…AND…/NOT BETWEEN…AND…)。

5. 可根據業務需求開發其他針對表達格式的配置選項,例如可配置數據的表達形式是整數、小數(及位數)、百分數等。

下圖是筆者過去搭建的某自主分析平臺產品的簡易原型。


在完成查詢條件的篩選後,會構建出如下表格。同一維度下的查詢字段會構建層次化索引,不同維度下的查詢字段會類似concat連接在一起。


自助分析平臺的另一個優勢是可直接根據數據生成各式的圖表,典型的折線圖、柱狀圖、堆積面積圖、直方圖、餅圖、散點圖等,以及根據業務需求可以支持漏斗圖或基於GIS信息的圖表等。

在線智能分析平臺

自助分析平臺雖然功能強大,但其本質上仍是構建數據表格的工具。業務人員更自然的使用方式是利用平臺構建表格並導出,之後在Excel進行分析和圖表的製作,這其實違背了我們希望平臺本身能解決數據分析問題的初衷。這一方面是因爲用戶的習慣很難改變,另一方面也是平臺構建表格的屬性引導了用戶。

若要通過平臺直接完成數據分析,這就要求平臺不能只是構建表格這麼簡單。我們需要重點優化平臺的數據表達和交互功能,以體現出平臺的分析屬性。這個階段可以稱爲在線智能分析平臺。這裏的關鍵詞有兩個:“在線”和“智能”。

其進步表現在可以直接在構建完的數據之上進行交互,產生更多的數據洞察。類似於我們在python中直接通過matplot或seaborn進行可視化,和利用bokeh進行數據表達的區別。雖然seaborn已經可以做出優秀的可視化報告,但其表達形式主要還是靜態圖表,更多時候是展現在分析報告中。而bokeh構建的圖表支持一系列的交互操作,不同使用人員可根據自身需求在圖表上完成分析。最典型的區別,有以下幾點:

1. 支持圖表的基本交互操作。包括了對區域的圈選高亮、全局或針對單一座標軸的放大縮小、鼠標懸停時的詳細數據展示等常用操作。

2. 支持數據的下鑽。選中具體數據後,可根據所支持的維度進行數據下鑽。例如我們發現某天的GMV下降明顯,選中當天數據後可以根據GMV在業務上定義的構成指標(訂單量、客單價等)或其他查詢維度(門店/類目等)進行下鑽以定位具體問題。可能最終會發現是某家重點門店當天經營異常而導致了整體GMV的下降。

3. 支持數據間的聯動。根據分析需求,我們可能需要同時分析有關聯關係的數據,洞察數據間的關係或影響。其核心是以某一字段作爲關聯圖表或表格的關聯字段,建立多份數據間的聯繫。這樣在同一個工作區內,對其中任意一份數據進行圈選、拖拽等操作,在其他的數據中也會同步展示。例如A表是SKU信息表,B表是訂單詳情表,C表是商品銷量的圖表,商品運營同事在分析具體SKU銷售情況時,會在A表中選中具體的SKU,在B表中爲自動選出包含該SKU的訂單,在C表中會自動選出該SKU的銷量情況。

在這些功能的支撐下,我們便可以直接在平臺上在線完成大部分數據分析的工作,而不用導出數據後在其他工具中進行分析。

根據數據分析的方法和目的,我們可以簡單的劃分爲三類:描述性分析、預測性分析和規範性分析。描述性分析給出的數據表現的客觀事實,預測性分析會基於過去的數據預測未來表現和可能性。規範性分析會通過分析提供指導和建議,就像醫生會對我們的體檢報告標註出異常並給出建議。

而在線智能分析平臺的“智能”也可以體現在對數據的診斷解讀上。一方面業務人員的數據分析水平可能參差不齊,無法要求所有人都有專業的分析能力,另一方面我們查看數據的主要目的也是想洞察數據背後的結論,而不是數據本身。因此平臺如果可以針對數據表現直接給出解讀,將大大提升平臺的服務屬性。

平臺可以對核心指標的異常範圍進行定義,比如可利用3σ原則,即對於服從正態分佈的數據,具體數值與整體平均值的差值大於3倍標準差時,可認定爲異常值。也可以與業務進行溝通,定義數據的異常波動範圍。針對不同的異常情況,可以提示不同的話術,並匹配建議方案。例如下圖是筆者過去負責的某款數據產品中,對具體指標給出的診斷解讀。對於不具備分析能力或時間寶貴的同學,直接概覽此模塊,就能對當前的經營情況有個大致瞭解。

數據分析自動化

對大數據分析平臺用戶的需求進行深挖,我們會發現不同用戶羣所關注的數據也會有所不同,而同一用戶往往會持續關注同一批數據。再想想,我們的運營人員、數據分析師等角色是不是每週或每月都會發送相關數據的週報或月報?可以認爲,每個人在查看數據的時候,是在閱讀一份數據報告。因此,平臺若能定週期產出符合目標用戶數據需求的,既有數據,又有洞察,帶有指導意義,且閱讀友好的數據報告,將能進一步提升平臺自身的價值。

爲了讓平臺可以自動生成報告,我們需要結合平臺之前的所有能力。用戶可以在平臺上配置適合自己及其他閱讀受衆的報告模板(組合相關的數據圖表及設置樣式),定義關鍵指標的解讀方法(定義數據波動區間及對應話術)。由系統給出解釋原因或預留備註空間由人工解釋。根據業務需要,配置報告的生成周期、發送對象、發送方式等信息。如下圖數據產品,每週會產出運營數據簡報。

對於不同的用戶,還可以查看細分欄目的週報,例如下圖是客戶維度的週報。

隨着數據驅動的意識越來越被重視,且大量傳統行業開始數字化轉型,大數據分析平臺在企業中扮演的角色會越來越重要。目前看到的情況是,大家對於大數據分析平臺的產品形態和發展趨勢的判斷基本是一致的。平臺最初用於解決基礎的數據查詢和分析需求,之後會逐步解放人力提升人效,最後我們都希望能由數據和機器直接生成決策。

當然,搭建大數據分析平臺的工作是循序漸進的,不同公司要根據自身所處階段選擇合適的平臺形態,沒有必要過分追求平臺的分析深度和服務屬性,關鍵是能解決當下的問題。

大數據分析平臺篇到此結束。

相關閱讀

數據產品指北(一)— 埋點

數據產品指北(二)— 數據指標

數據產品指北(三)— 數據平臺

數據產品指北(四)— 用戶行爲分析平臺

參考文獻

梁旭鵬. 《數據產品經理修煉手冊》. 2019.03.

[美]托馬斯·達文波特. 《成爲數據分析師:6步練就數據思維》. 2018.02.


歡迎關注公衆號:羅老師別這樣;感受一個產品人的成長與反思;

公衆號將持續更新深度學習筆記及個人心得,不輕易更新,但更新一定保證價值,望你和作者共同進步

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章