2019年用戶流失分析（五）——Python實現

5、模型應用

選擇4月份爲正常狀態的電視用戶，計算他們的收視時長、收視在線天數、距最近一次收視時間、入網時長、用戶主動辦理次數和投訴與報障次數6個特徵指標，利用構建好的用戶流失模型預測5月份的用戶流失情況。

5.1 離網傾向閾值

在4月份爲正常狀態的電視用戶數爲98201。5月份真實流失的電視用戶數爲1391，流失率爲1.40%。此時通過構建好的預測模型預測之後，計算與2019年5月真實流失的5161個用戶的匹配度，即模型應用的召回率爲22.57%。

在用戶流失模型的輸出結果中有一個指標爲離網傾向閾值，可以用來作爲用戶流失的概率（0~1），以區分不同用戶間流失可能性的高低，概率越高越可能流失。

在不用模型的情況下，任意給出X%的用戶名單，其命中率爲常數，等於離網率（均值爲1.5%），召回率等於X%。

在使用模型的情況下，給出離網傾向最高的前X%的用戶名單。其預測效果如表格11所示。

表格11

離網傾向閾值	流失人數	準確率（命中率）	召回率（查全率）
0.76	35278	0.88%	22.57%
0.63	48777	1.02%	35.73%
0.58	63129	1.35%	61.11%
0.33	80996	1.45%	84.40%

5.2 條件選擇預測分析

除了離網傾向閾值這個指標外，還可以通過特徵指標的選擇，觀察模型的效果是否有變化。如表格12所示。

全網的用戶月均在線天數爲15天。
全網的用戶月均收視時長爲200小時。
全網的用戶月均辦理業務和繳費次數（包括主動繳費與被動繳費）爲0.3次。
全網的用戶年均投訴與報障次數爲1.96次。

表格12

條件	用戶數	流失人數	準確率（命中率）	召回率（查全率）
無條件	98201	35278	0.88%	22.57%
在線天數高於75天的用戶	50841	41936	0.57%	17.04%
在線天數低於75天的用戶	47360	17096	2.87%	35.23%
收視時長高於1000小時的用戶	86976	72147	0.98%	51.11%
收視時長低於1000小時的用戶	11225	10617	3.71%	28.32%
辦理次數高於2次的用戶	24631	18951	1.37%	18.62%
辦理次數低於2次的用戶	73570	30534	1.47%	46.08%
投訴與報障次數高於2次的用戶	35691	27111	1.05%	20.56%
投訴與報障次數低於2次的用戶	62510	23486	2.63%	44.43%

從條件選擇預測的分析結果可以看出，增加在線天數低於75天、收視時長低於1000小時、辦理次數低於2次、投訴與報障次數低於2次的4個條件後，預測的準確率和查準率均有提高。

後面又進行4個條件的隨機組合實驗，發現投訴與報障次數、在線天數這兩個指標的影響顯著。

5.3 模型指導意義

在一系列用戶流失的分析、建模、預測、應用的過程中，大家肯定比較關心：在流失預測模型的指導下對高流失用戶開展挽留關懷活動，下個月的用戶流失率會不會顯著地降低呢？

答案是不一定，因爲用戶流失預測模型只是揭示了“什麼樣的用戶更可能會流失”這樣一個客觀規律。實際情況是在使用用戶流失預測模型之後，用戶流失率往往得不到大幅度的降低。下面通過一個例子來說明。

假設當前有效用戶數120萬，月平均流失1.8萬，流失率爲1.5%。

按照流失預測模型給出的流失傾向評分從高到低，從120萬的有效用戶中選取前5%的高流失傾向用戶，即6萬，其中真實流失的用戶有120×5%×1.5%×5=0.45萬個。

用戶挽留過程，會有用戶的接觸成功率，假設爲50%。成功接觸用戶後又存在挽留成功率問題，假設爲30%。

此時計算根據流失預測模型來採取挽留關懷活動能夠成功挽留下來的用戶數量：

高流失傾向用戶數×有效用戶的平均流失率×模型提升度×接觸成功率×接觸到的用戶的成功挽留率=1200000×5%×1.5%×5×50%×30%=675人

在這種情況下，流失率=（18000-675）/1200000=0.0144%，和不做活動的1.5%幾乎沒有區別。從這裏我們可以看出，用戶流失預測模型並沒有給企業帶來關於用戶流失率方面的多大改變。

那還要不要做流失預測模型呢？

答案是肯定的。如果是單純爲了大幅度降低用戶流失率，流失預測模型所起到的效果是相對較少的。原因很簡單，流失預測模型其實是一種方法論，它並不能直接帶來用戶流失率的降低。有些用戶雖然看起來還是正常的用戶，但已由活躍用戶逐漸轉爲不活躍，不再貢獻利潤價值。

但是通過挽留關懷讓用戶繼續保持活躍，繼續貢獻利潤價值，用戶流失預測模型是可以的，最大限度地讓用戶保持活躍狀態。

假定每月可以接觸6萬用戶，根據由用戶流失預測模型給出的高流失傾向的前5%的用戶名單開展關懷與挽留工作，剛好120×5%=6萬人，這時每月可以成功挽留住的用戶數爲675人。

如果沒有模型指導，每月可以成功挽留住的用戶數：

高流失傾向用戶數×高價值用戶的平均流失率×接觸成功率×接觸到的用戶的成功挽留率=1200000×5%×1.5%×50%×30%= 135人

可以發現有模型指導的挽留比沒有模型指導的挽留在每月的工作中成功地多挽留了675-135=540個用戶。假設這些成功留住的用戶可以繼續保持活躍狀態的時長爲3個月，有效用戶平均貢獻金額每月50元，則每月由於挽留效率的提高可以獲得的額外收益將爲540×50×3=81000元。

一年內，年總收益將增加81000×12=972000元。若用戶的月平均金額貢獻爲幾百元，則更多收益。即使模型的提升度爲3的情況下，每年的收益依然能夠增加486000元。

所以，用戶流失預測模型不能只看到模型預測結果準還是不準，還需要應用到實際的用戶挽留關懷工作當中去，這樣才能看到實實在在的效益變化。

Python用戶流失系列文章一月一更！

文章未經博主同意，禁止轉載！

2019年用戶流失分析（五）——Python實現

5、模型應用

5.1 離網傾向閾值

5.2 條件選擇預測分析

5.3 模型指導意義

Python面向對象編程（五）

Python3爬蟲知識（問題）彙總（一）

Python配置TensorFlow-GPU環境（筆記I）-2018-10-25

2019年用戶流失分析（五）——Python實現

Python編輯器之jupyter使用介紹（基本功能）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

2019年用戶流失分析（五）——Python實現

5、 模型應用

5.1 離網傾向閾值

5.2 條件選擇預測分析

5.3 模型指導意義

5、模型應用