数据异常分析方法论总结

走过路过不要错过

点击蓝字关注我们

数据异常分析作为数据分析日常工作中“再正常不过”的常规工作内容,经常出现在需求方的沟通消息中,"Hello,某某数据很异常啊,能查下原因么?”

虽然近乎一半的“数据异常”最后检查下来,都是口径不一致等的理解问题,但即便砍掉这部分需求,剩下的需求工作量也是不少的。

本着“重复性需求”要想办法自动化解决或者沉淀出方法论(固定套路)让“小弟”去解决的“方针”,(咳咳,弟弟,我这不是害你呀,我这是爱你呀),我寻思着写写异动分析的方法论。

具体步骤如下,enjoy.

Step 0. 明确需求是不是真的是异动分析需求

这一步准确来讲,其实不是异动分析的步骤,而是承接需求的工作习惯;所以本步骤记为 Step 0 吧。

像上边说的那样,在真正的工作中,异动分析类的需求有不少都是理解偏差的伪需求,所以在接到需求时,不要着急马上就去拆解思路查问题;而是应当询问清楚需求方,Ta的数据异常结论是怎么得出来的,看了哪些数据。

然后自己按照需求方发现问题的过程,检查一遍数据,排查是否是如下原因引起的伪需求:

(1) 数据口径不一致等理解差异;

(2) 数据源更新延迟等数仓侧原因;

(3) 数据未上报/未采集等开发侧原因;

Step 1.定位呈现问题的最小单元

先解释下什么叫最小单元。最小单元就是对有这样问题表现的群体(即集合)进行不同维度(特征)的划分,直到找到某个集合,该集合中的群体都有这样的问题表现。

举个例子,假设我们发现,某电商交易平台月活客户数持续下降。

在问题提出时,我们得到的群体是“平台特定周期内所有活跃客户”,但是具体去看的时候,发生活跃度降低的用户群可能仅仅是某些渠道来的新客,也可能是具有某些群标签的老客,也可能是某些地区的用户(无新老客的差异),而我们要做的,就是对“平台特定周期内的活跃客户”进行一级*二级*三级等粒度维度的划分,具体去看呈现出异常表现的是具有哪些特征的人群

图1. 拆分所有维度/特征

在这一步,用到的仅仅是人群维度的结构化拆解,注意维度列举时应遵循MECE原则,即:相互独立,完全穷尽

Step 2. 基于最小单元,梳理相关因素,进行猜想验证

假设在第一步,我们定位到问题呈现现的最小单元是:某些投放渠道来的新客、某些城市的新客和某些城市的老客;

图2. 验证相关维度/特征

基于第一步的“最小单元”,梳理出每个单元涉及的相关方和相关因素。

其中相关因素就涉及需求方的工作了,所以记得平时多和需求方沟通学习,了解合作方的工作内容。数据分析师能力模型中,所谓的“懂业务”,一部分就是可以通过这种多沟通的方式得到提升,特别是当你遇到一个很专业很能打的合作方。

图3. 相关因素穷举

针对梳理出来的因素,我们可以提出猜想并进行验证(以排除无关因素):

1、【渠道】是不是渠道本身质量有问题?

2、【渠道】是不是投放渠道配置的素材有问题,以致吸引的客群质量不佳?

3、【渠道】是不是投放选的人群标签不对?

4、【地区】是不是有竞对在分走客户?

5、【地区】是不是区域的运营策略做了调整且调整后效果没有之前好?

6、【地区】是不是区域最近有什么大事件,影响用户消费?

......

列出各种猜想后,通过搜集相关资料和数据,来排除肯定错误的猜想,保留有证据支持的猜想。

 

图4. 验证有效因素

Step 3. 测算每个因素对结果的“贡献度”

在第二步的基础上,排除掉确定无关的因素,且有证据表明剩余因素相关,若相因素唯一,则原因定位到了,反馈给合作方,后续持续跟进问题解决即可;

若相关因素不唯一,则需要通过对比分析等方法,测算出各个因素对结果的影响程度,和需求方一起讨论解决方案以及各个子方案的优先级。

番外.碰到实在分析不出原因的数据异常怎么办?

上述的方法一定程度上可以解决大多数异动分析问题,但是还是会遇见一些无法通过数据分析定位到异常原因的数据异常,这个时候就得上用户调研了。

高手在民间,用户的行为,只有你想不到,没有他们做不到的。实在分析不出来,就去回访用户爸爸吧。

热门文章

直戳泪点!数据从业者权威嘲讽指南!

数据分析师做成了提数工程师,该如何破局?

全栈型VS专精型,团队到底需要什么样的人?

数据驱动业务,比技术更重要的是思维的转变

最近面了十多个数据分析师,聊一聊我发现的一些问题

【您的在看,我的莫大鼓励】

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章