原文：https://www.usenix.org/system/files/conference/nsdi14/nsdi14-paper-bhagwan.pdf

本文主要解决在广告系统中，当指标异常波动时在和收益相关的指标的各个维度中去定位根因。

本文实现了一个名为Adtributor的工具，其中实现了一个属性算法，以及一个可视化的接口。该工具可以帮助故障派出人员快速识别异常的潜在原因，在一个大型广告系统中取得了良好的效果。

1. 综述

维度根因定位问题有三大特点：

系统规模
每天有大量的用户使用，所以在单个搜索或者点击级别去定位问题不现实，只能在一些聚合的指标上去定位问题。问题定位系统也只有在发现了异常时才触发。
在指标的多个维度中首先找到能解释异常的维度
衍生指标的普遍性问题

本文有三点主要贡献：

提出了一个根因定位的算法。
对于衍生指标的根因定位问题。
实现了根因定位的算法，并且开发了一个可视化的工具。

2. 问题引入

2.1 异常检测部分

利用ARMA模型进行预测，当预测结果和实际结果超出一定的百分比偏差时告警。

2.2 问题范围限定

下面的例子，在某个时刻，广告收益的预测值为100 $，实际只有50$ ，触发异常告警，并且执行根因分析。

这里假设和收益相关只有三个维度分别是数据中心（DC），广告商（AD），设备类型（DT）。上图是该时刻三个维度的实际值和预测值的情况。算法需要定位是哪些维度的哪些元素导致了这次收益下降。

布尔表达式

用如下的布尔表达式描述50$收益下降：

Recenue_drop(DC=X)=47$
Recenue_drop(AD=A1 | AD=A3 | AD=A4)=51$
Recenue_drop(DT=Mobile | DT=Tablet)=49$

作者团队经过长期的案例学习发现，一个异常的根因由多个维度共同导致的情况非常罕见。因此本文将问题限制在只在一个维度的元素组合中寻找异常的根因。

2.3 Explanatory Power(EP) & Succinctness§ & Surprise(S)

稻草人方法（strawman）： 我们寻找的解满足以下情况，该维度的一组元素其收入下降达到总收入下降的阈值分数 $T_{EP}$ ，并且是最简洁的组合。

Explanatory Power( $EP$ ): 一组元素解释指标变化的分数。

Succinctness( $P$ ): 一组元素中元素的个数。

稻草人方法就是去寻找个数最少的一组元素，该组元素的解释力超过 $T_{EP}$ 。

但是仅用稻草人方法有一些不足。如上例所示，数据中心维度中，X的预测收入占比94%，实际收入占比94%，Y的预测收入占比和实际收入占比均为6%。设备类型维度中，PC的预测占比为50%，但是实际占比为98%，Mobile和Tablet的预测占比均为，但是实际占比一个是2%一个是0%。这种变化在广告商维度变化也挺大。

根据稻草人原则，我们会最终定位根因为X数据中心，但是如上所述在设备类型维度元素的预测和实际收入占比的这种变化是让人感到surprise的，所以引入一个新的概念 Surprise( $S$ ): 来描述这种变化。

3. 根因定位算法

3.1 符号

$D$ : 维度，例如：广告商，数据中心。
$C_i$ : 维度的基数，例如：广告商共有100个取值。
$E_i$ : 维度的元素，例如：可口可乐是广告商之一。
$M$ : 指标，例如：总收入，总搜索次数。
$F_{ij}(m)$ : 对于指标 $M$ 的元素 $E_{ij}$ 的预测值。
$A_{ij}(m)$ : 对于指标 $M$ 的元素 $E_{ij}$ 的实际值。
$F(m)$ : 指标 $M$ 的整体的预测值。
$A(m)$ : 指标 $M$ 的整体的实际值。

3.2 Explanatory power

给定元素的 $EP$ 值是该元素的变化在该维度整体变化的占比。例如维度 $i$ 的 $j$ 元素的解释力为：
$EP_{ij}=\frac{A_{ij}(m)−F_{ij}(m)}{A(m)−F(m)}$

3.3 Surprise

对于每个元素 $E_{ij}$ ，用 $p_{ij}$ 表示预测占比或者叫先验概率

$p_{ij}=\frac{F_{ij}(m)}{F(m)}, \forall E_{ij}$

用 $q_{ij}$ 表示实际占比或者叫后验概率。
$q_{ij}=\frac{A_{ij}(m)}{A(m)}, \forall E_{ij}$

用JS散度来衡量这两个分布的差异：
$D_{JS}(P,Q)=0.5(\sum_i p_i log \frac{2p_i}{p_i+q_i} + \sum_i q_i log \frac{2q_i}{p_i+q_i})$

其中 $0 \leq D_{JS} \leq 1$ ，0表示两个分布相同，值越大差异越大。

（不用KL散度的原因是：一、KL散度不是对称的。二、KL散度是无界的，对于概率值为0的情况KL散度无法处理。）

对于每个元素 $E_{ij}$ 计算surprise值 $S_{ij}$ ：

$S_{ij}(m)=0.5 * (p log \frac{2p}{p+q} + q log \frac{2q}{p+q})$

其中 $p=p_{ij}(m)$ ， $q=q_{ij}(m)$ 。

3.4 完整算法：

算法描述

最终广告系统收入根因分析方法分为如下三步：

（Explanatory Power）在每个维度中，找到解释性达到 $T_{EP}$ 的元素集合。
（Succinctness）在每个维度的元素集合中找到该维度最简洁的集合。
（Surprise）对于所有的集合，找到在贡献变化最大的集合。

伪代码：

算法中主要有两个参数 $T_{EP}$ ， $T_{EEP}$ ：

$T_{EP}$ ：该维度下的元素组合（该维度的根因元素候选集）的Explanatory Power总和要满足的阈值，满足该阈值的候选集才能被加到该异常的根因组合中。
$T_{EEP}$ ：该维度下单个元素的Explanatory Power要满足的阈值，满足该阈值才能被加到该维度的根因元素候选集中。

最终结果取surprise值最大的三个，这里可以改成设置一个surprise的阈值 $T_{S}$ ，满足该阈值的候选集作为最终结果。

在算法描述中遍历所有具有最小 $T_{EP}$ 解释力的基数子集非常耗费时间，伪代码中采用贪婪的启发式算法，可以大大降低执行速度。

其他

第四章是介绍衍生指标的EP值和S值的求法，这一块没有仔细看。

Adtributor: Revenue Debugging in Advertising Systems

1. 综述

2. 问题引入

2.1 异常检测部分

2.2 问题范围限定

2.3 Explanatory Power(EP) & Succinctness§ & Surprise(S)

3. 根因定位算法

3.1 符号

3.2 Explanatory power

3.3 Surprise

3.4 完整算法：

其他

[转帖]使用NMT和pmap解决JVM资源泄漏问题原创

Python实现大麦网抢票的四大关键技术点解析

Python 安装库指令大全

salesforce零基础学习（一百三十八）零碎知识点小总结（十）

一款开源的.NET程序集反编译、编辑和调试神器

关于接口协议，你必须要知道这些！

【2024-05-21】以茶会友

多維數組的順序表示

插入排序(直接插入排序，折半插入排序，2路插入排序，希爾排序)

時間序列之間的相關性檢測

ADJUSTED BOXPLOT: 偏態分佈的異常檢測

二叉樹鏈式存儲的實現

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結