數據異常分析方法論總結

走過路過不要錯過

點擊藍字關注我們

數據異常分析作爲數據分析日常工作中“再正常不過”的常規工作內容,經常出現在需求方的溝通消息中,"Hello,某某數據很異常啊,能查下原因麼?”

雖然近乎一半的“數據異常”最後檢查下來,都是口徑不一致等的理解問題,但即便砍掉這部分需求,剩下的需求工作量也是不少的。

本着“重複性需求”要想辦法自動化解決或者沉澱出方法論(固定套路)讓“小弟”去解決的“方針”,(咳咳,弟弟,我這不是害你呀,我這是愛你呀),我尋思着寫寫異動分析的方法論。

具體步驟如下,enjoy.

Step 0. 明確需求是不是真的是異動分析需求

這一步準確來講,其實不是異動分析的步驟,而是承接需求的工作習慣;所以本步驟記爲 Step 0 吧。

像上邊說的那樣,在真正的工作中,異動分析類的需求有不少都是理解偏差的僞需求,所以在接到需求時,不要着急馬上就去拆解思路查問題;而是應當詢問清楚需求方,Ta的數據異常結論是怎麼得出來的,看了哪些數據。

然後自己按照需求方發現問題的過程,檢查一遍數據,排查是否是如下原因引起的僞需求:

(1) 數據口徑不一致等理解差異;

(2) 數據源更新延遲等數倉側原因;

(3) 數據未上報/未採集等開發側原因;

Step 1.定位呈現問題的最小單元

先解釋下什麼叫最小單元。最小單元就是對有這樣問題表現的羣體(即集合)進行不同維度(特徵)的劃分,直到找到某個集合,該集合中的羣體都有這樣的問題表現。

舉個例子,假設我們發現,某電商交易平臺月活客戶數持續下降。

在問題提出時,我們得到的羣體是“平臺特定週期內所有活躍客戶”,但是具體去看的時候,發生活躍度降低的用戶羣可能僅僅是某些渠道來的新客,也可能是具有某些羣標籤的老客,也可能是某些地區的用戶(無新老客的差異),而我們要做的,就是對“平臺特定週期內的活躍客戶”進行一級*二級*三級等粒度維度的劃分,具體去看呈現出異常表現的是具有哪些特徵的人羣

圖1. 拆分所有維度/特徵

在這一步,用到的僅僅是人羣維度的結構化拆解,注意維度列舉時應遵循MECE原則,即:相互獨立,完全窮盡

Step 2. 基於最小單元,梳理相關因素,進行猜想驗證

假設在第一步,我們定位到問題呈現現的最小單元是:某些投放渠道來的新客、某些城市的新客和某些城市的老客;

圖2. 驗證相關維度/特徵

基於第一步的“最小單元”,梳理出每個單元涉及的相關方和相關因素。

其中相關因素就涉及需求方的工作了,所以記得平時多和需求方溝通學習,瞭解合作方的工作內容。數據分析師能力模型中,所謂的“懂業務”,一部分就是可以通過這種多溝通的方式得到提升,特別是當你遇到一個很專業很能打的合作方。

圖3. 相關因素窮舉

針對梳理出來的因素,我們可以提出猜想並進行驗證(以排除無關因素):

1、【渠道】是不是渠道本身質量有問題?

2、【渠道】是不是投放渠道配置的素材有問題,以致吸引的客羣質量不佳?

3、【渠道】是不是投放選的人羣標籤不對?

4、【地區】是不是有競對在分走客戶?

5、【地區】是不是區域的運營策略做了調整且調整後效果沒有之前好?

6、【地區】是不是區域最近有什麼大事件,影響用戶消費?

......

列出各種猜想後,通過蒐集相關資料和數據,來排除肯定錯誤的猜想,保留有證據支持的猜想。

 

圖4. 驗證有效因素

Step 3. 測算每個因素對結果的“貢獻度”

在第二步的基礎上,排除掉確定無關的因素,且有證據表明剩餘因素相關,若相因素唯一,則原因定位到了,反饋給合作方,後續持續跟進問題解決即可;

若相關因素不唯一,則需要通過對比分析等方法,測算出各個因素對結果的影響程度,和需求方一起討論解決方案以及各個子方案的優先級。

番外.碰到實在分析不出原因的數據異常怎麼辦?

上述的方法一定程度上可以解決大多數異動分析問題,但是還是會遇見一些無法通過數據分析定位到異常原因的數據異常,這個時候就得上用戶調研了。

高手在民間,用戶的行爲,只有你想不到,沒有他們做不到的。實在分析不出來,就去回訪用戶爸爸吧。

熱門文章

直戳淚點!數據從業者權威嘲諷指南!

數據分析師做成了提數工程師,該如何破局?

全棧型VS專精型,團隊到底需要什麼樣的人?

數據驅動業務,比技術更重要的是思維的轉變

最近面了十多個數據分析師,聊一聊我發現的一些問題

【您的在看,我的莫大鼓勵】

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章