2019年用户流失分析（五）——Python实现

5、模型应用

选择4月份为正常状态的电视用户，计算他们的收视时长、收视在线天数、距最近一次收视时间、入网时长、用户主动办理次数和投诉与报障次数6个特征指标，利用构建好的用户流失模型预测5月份的用户流失情况。

5.1 离网倾向阈值

在4月份为正常状态的电视用户数为98201。5月份真实流失的电视用户数为1391，流失率为1.40%。此时通过构建好的预测模型预测之后，计算与2019年5月真实流失的5161个用户的匹配度，即模型应用的召回率为22.57%。

在用户流失模型的输出结果中有一个指标为离网倾向阈值，可以用来作为用户流失的概率（0~1），以区分不同用户间流失可能性的高低，概率越高越可能流失。

在不用模型的情况下，任意给出X%的用户名单，其命中率为常数，等于离网率（均值为1.5%），召回率等于X%。

在使用模型的情况下，给出离网倾向最高的前X%的用户名单。其预测效果如表格11所示。

表格11

离网倾向阈值	流失人数	准确率（命中率）	召回率（查全率）
0.76	35278	0.88%	22.57%
0.63	48777	1.02%	35.73%
0.58	63129	1.35%	61.11%
0.33	80996	1.45%	84.40%

5.2 条件选择预测分析

除了离网倾向阈值这个指标外，还可以通过特征指标的选择，观察模型的效果是否有变化。如表格12所示。

全网的用户月均在线天数为15天。
全网的用户月均收视时长为200小时。
全网的用户月均办理业务和缴费次数（包括主动缴费与被动缴费）为0.3次。
全网的用户年均投诉与报障次数为1.96次。

表格12

条件	用户数	流失人数	准确率（命中率）	召回率（查全率）
无条件	98201	35278	0.88%	22.57%
在线天数高于75天的用户	50841	41936	0.57%	17.04%
在线天数低于75天的用户	47360	17096	2.87%	35.23%
收视时长高于1000小时的用户	86976	72147	0.98%	51.11%
收视时长低于1000小时的用户	11225	10617	3.71%	28.32%
办理次数高于2次的用户	24631	18951	1.37%	18.62%
办理次数低于2次的用户	73570	30534	1.47%	46.08%
投诉与报障次数高于2次的用户	35691	27111	1.05%	20.56%
投诉与报障次数低于2次的用户	62510	23486	2.63%	44.43%

从条件选择预测的分析结果可以看出，增加在线天数低于75天、收视时长低于1000小时、办理次数低于2次、投诉与报障次数低于2次的4个条件后，预测的准确率和查准率均有提高。

后面又进行4个条件的随机组合实验，发现投诉与报障次数、在线天数这两个指标的影响显著。

5.3 模型指导意义

在一系列用户流失的分析、建模、预测、应用的过程中，大家肯定比较关心：在流失预测模型的指导下对高流失用户开展挽留关怀活动，下个月的用户流失率会不会显著地降低呢？

答案是不一定，因为用户流失预测模型只是揭示了“什么样的用户更可能会流失”这样一个客观规律。实际情况是在使用用户流失预测模型之后，用户流失率往往得不到大幅度的降低。下面通过一个例子来说明。

假设当前有效用户数120万，月平均流失1.8万，流失率为1.5%。

按照流失预测模型给出的流失倾向评分从高到低，从120万的有效用户中选取前5%的高流失倾向用户，即6万，其中真实流失的用户有120×5%×1.5%×5=0.45万个。

用户挽留过程，会有用户的接触成功率，假设为50%。成功接触用户后又存在挽留成功率问题，假设为30%。

此时计算根据流失预测模型来采取挽留关怀活动能够成功挽留下来的用户数量：

高流失倾向用户数×有效用户的平均流失率×模型提升度×接触成功率×接触到的用户的成功挽留率=1200000×5%×1.5%×5×50%×30%=675人

在这种情况下，流失率=（18000-675）/1200000=0.0144%，和不做活动的1.5%几乎没有区别。从这里我们可以看出，用户流失预测模型并没有给企业带来关于用户流失率方面的多大改变。

那还要不要做流失预测模型呢？

答案是肯定的。如果是单纯为了大幅度降低用户流失率，流失预测模型所起到的效果是相对较少的。原因很简单，流失预测模型其实是一种方法论，它并不能直接带来用户流失率的降低。有些用户虽然看起来还是正常的用户，但已由活跃用户逐渐转为不活跃，不再贡献利润价值。

但是通过挽留关怀让用户继续保持活跃，继续贡献利润价值，用户流失预测模型是可以的，最大限度地让用户保持活跃状态。

假定每月可以接触6万用户，根据由用户流失预测模型给出的高流失倾向的前5%的用户名单开展关怀与挽留工作，刚好120×5%=6万人，这时每月可以成功挽留住的用户数为675人。

如果没有模型指导，每月可以成功挽留住的用户数：

高流失倾向用户数×高价值用户的平均流失率×接触成功率×接触到的用户的成功挽留率=1200000×5%×1.5%×50%×30%= 135人

可以发现有模型指导的挽留比没有模型指导的挽留在每月的工作中成功地多挽留了675-135=540个用户。假设这些成功留住的用户可以继续保持活跃状态的时长为3个月，有效用户平均贡献金额每月50元，则每月由于挽留效率的提高可以获得的额外收益将为540×50×3=81000元。

一年内，年总收益将增加81000×12=972000元。若用户的月平均金额贡献为几百元，则更多收益。即使模型的提升度为3的情况下，每年的收益依然能够增加486000元。

所以，用户流失预测模型不能只看到模型预测结果准还是不准，还需要应用到实际的用户挽留关怀工作当中去，这样才能看到实实在在的效益变化。

Python用户流失系列文章一月一更！

文章未经博主同意，禁止转载！

2019年用户流失分析（五）——Python实现

5、模型应用

5.1 离网倾向阈值

5.2 条件选择预测分析

5.3 模型指导意义

工作中用到的脚本合集

24-5-18 X

Python面向對象編程（五）

Python3爬蟲知識（問題）彙總（一）

Python配置TensorFlow-GPU環境（筆記I）-2018-10-25

2019年用戶流失分析（五）——Python實現

Python編輯器之jupyter使用介紹（基本功能）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

2019年用户流失分析（五）——Python实现

5、 模型应用

5.1 离网倾向阈值

5.2 条件选择预测分析

5.3 模型指导意义

5、模型应用