用戶增長分析系列:用戶流失預警

1

前言

針對用戶增長分析這個課題,本文主要從用戶防流失的角度,闡述如何基於QQ社交網絡數據構建用戶流失預警模型,找出高潛流失用戶,用於定向開展運營激活,從而有效控制用戶流失風險,提升大盤用戶的留存率和活躍度。本文所涉及到的分析框架和方法論等具有較強的通用性,可供有需要的同學瞭解參考。

2

分析背景

“根據美國貝恩公司的調查,在商業社會中5%的客戶留存率增長意味着公司利潤30%的增長,而把產品賣給老客戶的概率是賣給新客戶的3倍。所以在‘增長黑客’圈內有一句名言:留住已有的用戶勝過拓展新的客戶,也就是俗稱的‘一鳥在手,勝過雙鳥在林’。”

——《增長黑客》

用戶留存和用戶流失是一組相對的概念。諸如獲得一個新客戶的成本是保持一個老客戶的5倍等經過衆多商業實踐總結出來的數據都證明了一個事實——提升用戶留存率,減少用戶流失,對於任何一家企業來說都是非常重要。而隨着互聯網特別是移動互聯網的高速發展,傳統模式下的很多發展瓶頸得到了重大突破,成本結構也發生了顯著變化。但對於企業來說,用戶留存依然是反映企業及產品核心競爭力的關鍵要素。

在用戶生命週期管理(CLM)的分析框架下,不同的用戶生命週期階段我們需要考慮不同的問題,制定不同的用戶管理策略,不斷改善用戶體驗的同時,實現用戶生命週期價值(CLV)的最大化。

不同用戶所處的階段可能是不一樣的,且每一個階段的時間跨度和展現形式可能也有所不同。針對用戶衰退階段,構建高危流失用戶的預警機制,制定面向高危用戶挽留策略,是延長用戶生命週期、提升用戶留存的重要舉措,這也是本文將要重點闡述的研究內容。

圖1:用戶生命週期

關於對用戶數據如何開展分析挖掘,目前業界已有不少成熟的方法論,而我們的分析流程也是在這些方法論的指導下有序開展的。當前業界主要的兩大方法論分別是SEMMA方法論和CRISP-DM方法論。其中SAS公司提出的SEMMA方法論,即抽樣(Sample)、探索(Explore)、修改(Modify)、建模(Model)、評估(Assess),強調的是這5個核心環節的有機循環。而SPSS公司提出的CRISP-DM是英文縮寫,全稱爲跨行業數據挖掘標準流程(Cross-Industry Standard Process for Data Mining),突出業務理解、數據理解、數據準備、建模、評價和發佈這幾個環節,強調將數據挖掘目標和商務目標進行充分結合。

在具體實踐中,CRISP-DM強調上層的商務目標的實現,SEMMA則更側重在具體數據挖掘技術的實現上。只有將兩種方法緊密聯繫在一起,才能達到更好地達成數據分析挖掘的效果。

圖2:數據分析挖掘方法論

3

流失預警模型構建

基於上述方法論,下面結合具體的業務場景,詳細介紹用戶流失預警的分析思路及模型建設過程。

1. 業務理解

1.1. 業務現狀

針對某業務用戶活躍度下降、沉默用戶比例較高的業務現狀,着手建立高潛流失用戶預警及挽留機制,以期提升用戶留存,拉動活躍,“防患於未然”。而落腳點則是建立一套流失預警的分類模型,預測用戶的流失概率。

1.2. 問題定義

基於上述需求,首先我們要明確流失的定義,使得分析的目標更符合業務理解及分析要求。

1.2.1. 用戶流失行爲定義

這裏羅列了流失分析可能需要考慮的三個維度:動因、程度和去向。不同業務場景下流失分析可能需要綜合考慮多個維度,以制定最爲合理的分析目標。

1) 流失動因

• 客戶主動流失(VOLUNTARY CHURN)——客戶主動銷戶或者改變當前的服務模式;

• 客戶被動流失(INVOLUNTARY CHURN)——客戶因爲違規或欺詐等行爲被停止服務及強行關閉帳戶等行爲。

2) 流失程度

• 完全流失——客戶發生關閉所有與企業服務相關帳戶和交易等不可恢復或者很難恢復的行爲;

• 部分流失(PARTIAL CHURN)——客戶並未關閉帳戶但是交易水平突減到一定水平之下,例如在產品使用場景下用戶使用頻率突降了50%等等。

3) 流失去向

• 外部——客戶關閉或減少了在當前機構的業務而轉向了其它競爭對手;

• 內部——客戶關閉或減少了在當前機構的部分業務而轉向了當前機構的其它業務。

可見,對於流失的理解可以是多方位的,需要結合具體的場景和需求。這裏我們只簡化考慮用戶在某項業務主動部分流失的情況。

1.2.2. Roll-rate分析

針對流失的目標定義,我們鎖定一批用戶,觀察其在後續業務使用方面的持續沉默天數,滾動考察用戶持續沉默環比。我們發現,當用戶在該業務持續沉默天數超過兩週後,持續沉默環比高於X%且後續趨勢平穩。因此我們將本次該業務流失分析的目標定義爲:用戶該業務使用出現連續沉默14天及以上。基於該定義着手構建建模分析樣本。

圖3:Roll-rate分析

2. 數據理解

針對用戶流失預警這一分析目標,我們重點考察用戶活躍類指標,構建流失預警分析建模指標體系:

圖4:建模指標體系

3. 數據準備

3.1. 樣本構造

流失預警分析樣本數據選取:

1) 鎖定某日業務使用活躍用戶,統計其在後續14天的活躍情況;

2) 由連續14天沉默帳號和14天有活躍帳號構成樣本,並打上相應標籤;

3) 統計樣本賬號在觀察點前8周的行爲特徵,按周彙總輸出,同時加入包括基礎畫像的特徵屬性。

圖5:建模樣本構造

3.2. 數據質量檢驗

這項工作的重要性不言而喻,正所謂“垃圾進,垃圾出”,基礎數據如果無法保證良好的數據質量,分析研究工作便會舉步維艱甚至是徒勞,分析得出的結論也是無效或者是錯誤的。因此,我們需要建立一套完整有效的數據質量檢驗流程,這裏暫且不就這部分內容展開介紹了。

4. 建模分析

根據SEMMA的數據挖掘方法論,建模分析過程主要包括抽樣(Sample)、探索(Explore)、修改(Modify)、建模(Model)和評估(Assess)這五個關鍵環節。而下面就這五個環節的技術實現過程中涉及到的一些關鍵點進行簡要闡述:

4.1. 粒度的選擇

根據分析目標,選擇合適的分析粒度。不同的粒度意味着需要對數據需要做不同方式的處理以及應用。比如說我們是基於帳號還是自然人,這個問題需要在模型建設初期就明確下來。目前流失預警分析以QQ用戶帳號爲分析單元。

4.2. 抽樣與過抽樣

抽樣就是從原始數據中,抽取一定量的記錄構成新的數據。對於原始數據規模非常大的場景來說,抽樣往往是必要的,可以大大提升模型訓練的速度。當然,隨着分佈式計算等大規模數據處理及分析能力的引入,使用完整的、大量的數據樣本進行模型訓練的可能性也越來越高。

而過抽樣則可以理解爲多抽取稀有的標籤,而少取常見的標籤,這種抽樣方法在建模過程中相當常見。比如本次流失分析的場景下,流失用戶作爲目標樣本,相比整體大盤來說肯定是屬於稀有的標籤。爲保證模型的有效性,我們需要按照一定配比,建立有流失和非流失用戶構成的建模樣本,並分別打上‘1’和‘0’的狀態標籤。兩類樣本的比例關係並沒有固定標準。一般情況下,目標標籤樣本佔建模數據集的比例在20%-30%,會產生較好的模型效果。

另外,也可以通過樣本加權的方式進行過抽樣,實現增加建模數據集密度的同時而不減少其規模。具體操作上一般將最大的權重設爲1,而其他所有權重都取小於1的值,以此減少模型過擬合的風險。

4.3. 數據探索與修改

數據探索即對數據開展初步分析,包括考察預測變量的統計特性及分佈、缺失及異常值發現及處理、變量關聯性及相關性分析等單變量或多變量交叉分析。

4.3.1. 變量離散化

在對建模數據進行單變量分析及預處理的過程,對變量進行分組,目的在於觀察變量與目標事件的對應趨勢,判斷是否與實際業務理解相符,從而決定變量是否適用。同時通過變量分組,減少變量屬性個數,有助於避免異常值對模型的影響,提升模型的預測和泛化能力。

具體做法是對變量按照一定規則進行劃分,比如對於連續型的數值變量,按照樣本量分位點進行等高劃分或者對變量值進行等寬劃分爲若干個區間,示例如下:

變量名

下限

上限

用戶數

佔比

非流失用戶數

流失用戶數

流失率

指標A

相關統計結果

圖6:單變量分佈

4.3.2. WOE(Weights of Evidence)值計算:

在變量分組的基礎上,我們這裏使用證據權重WOE對變量取值的編碼轉換,作爲最後模型的輸入。WOE的計算公式如下:

WOEattribute = log(p_non-eventattribute /p_eventattribute)

其中:

p_non-eventattribute = #non-eventattribute/#non-event(模型變量各特徵分段下非事件響應用戶數佔總體非事件響應用戶數的比例)

p_eventattribute = #eventattribute/#event(模型變量各特徵分段下事件響應用戶數佔總體事件響應用戶數的比例)

從這個公式中可以看到,WOE表示的實際上是“當前分組中非響應用戶佔所有非響應用戶的比例”和“當前分組中響應的用戶佔所有響應的用戶的比例”的差異。WOE越大,這種差異越大,這個分組裏的樣本響應的可能性就越小,即用戶流失風險越小。

將字符型和數據型變量分組後的WOE值,可以作爲迴歸模型訓練的輸入。

4.3.3. 變量選擇

關於模型待選變量的選擇標準主要從四個方面加以考慮:

• 變量的預測能力

• 變量的穩定性

• 變量與業務的趨勢一致性

• 變量間的相關性

1) 變量的預測能力

在變量預測力方面,選擇計算信息值IV(Information Value)來量度。IV值一方面可以用於選擇預測變量,另一方面也可以作爲分組是否合適的判斷依據。

IV的定義和熵(平均信息量)的定義很相似:

IV = ∑((p_non-eventattribute - p_eventattribute) * woeattribute)

一般情況下,IV的衡量標準如下:

表1:IV衡量標準

2) 變量的穩定性

變量的穩定性主要是跨時點考察特徵分段樣本分佈是否存在明顯異動。對波動性較強的變量則需要考慮是否需要結合時間序列做衍生處理,又或者被剔除。穩定性指標通過PSI(Population Stability Index)來度量。具體計算公式如下:

Index=∑((比較時點分段樣本百分比-基準時點分段樣本百分比)*ln(比較時點分段樣本百分比/基準時點分段樣本百分比)

一般情況下,PSI的衡量標準如下:

表2:PSI衡量標準

3) 變量與業務的趨勢一致性

這個標準可以結合業務知識、特徵分佈及WOE進行綜合判斷。

4) 變量間相關性

計算變量間的相關係數,當模型變量間的相關性過高,產生共線性 (collinearity) 的問題,可能會導致模型的預測能力下降,甚至出現與預測結果相反無法解釋的現象。爲避免變量間的高度相關削弱模型預測能力,對相關係數較高的變量集合可通過IV擇優選取。

4.4. 建模

前面我們通過大量的特徵分析工作圈定了有效模型入選變量,接下來通過模型算法的選擇調用最終輸出模型結果,給每個用戶單元計算流失概率。作爲一個分類問題,目前我們有比較多的模型算法可以嘗試,比如說邏輯迴歸和決策樹等。通過模型比較,我們最終選擇邏輯迴歸進行建模。由於邏輯迴歸是業務已經比較成熟的分類算法,大多數分析同學應該都比較瞭解,這裏就不再贅述其原理。

5. 模型評價

對於一個模型是否達標,我們一般會從以下幾個方面去考量:

1) 是否達到符合應用要求的準確性水平

這裏我們可以通過Lift Charts(又叫 gains chart)、ROC Charts、KS等評價指標來對模型性能進行評估比較。

2) 是否具有較高的穩定性

同樣的,我們可以借鑑變量分析裏面的穩定性係數PSI來衡量及監控模型的穩定性;

3) 是否簡單

這個標準主要是從模型部署的角度考慮,模型如果足夠簡單,將更有利於模型的IT部署應用。

4) 是否有意義

即在模型變量及其預測結果方面具有較強的可解釋性。這對於某些場景來說要非常看重的指標,比如說在銀行信貸的信用評分模型的應用上。它是技術與業務有效連接的重要橋樑,有利於業務方更好理解模型並有效指導業務開展。當然,隨着機器學習領域一些高級算法的研究使用,可解釋性要求在某些場景下已經不屬於必要條件。

6. 模型應用

關於模型應用,我們主要聚焦在以下兩個方面:

1) 用預測模型得到影響流失的重要因素

通過單變量分析找出對業務有突出影響的一系列“Magic Number”。爲什麼叫“Magic Number”?顧名思義,這個數字能給業務增長帶來魔力般的神奇促進效果。通過對關鍵影響指標的量化分析,可以幫助業務有效制定運營目標。

圖7:Magic Number

如上圖所示,在流失預警的分析中,我們發現若干對用戶流失顯著相關的特徵指標,比如上圖指標B。當指標B取值達到X2及以上時,用戶流失率只有取值X2以下用戶的30%左右,可見指標B對於促進用戶留存有正向作用。業務方可根據以上分析結論制定相應業務目標及策略。

2) 用預測模型預測客戶流失的可能性

利用模型輸出的概率結果,對流失概率最高的一部分用戶,可以開展針對性的運營管理,比如設計有效的喚醒機制、個性化推薦以及合作產品引導等,挖掘用戶的應用需求點和興趣點。同時建立分析-應用-反饋的閉環流程,持續對用戶留存流失進行監控管理,及時發現問題,以指導模型優化及策略更新。

4

優化研究方向

可以嘗試從以下兩個方面開展優化分析:

1. 用戶羣體細分:針對不同類型的用戶分別搭建流失預警模型;

2. 用戶行爲分析:分析用戶產品使用行爲及內容偏好,挖掘用戶使用習慣及興趣點,實現個性化推薦,拉動用戶活躍。

5

結語

在用戶流失預警這個分析案例中,我們結合業務現狀,在用戶生命週期管理的大框架下,採用業界較爲成熟的數據分析挖掘方法論,開展數據分析工作。這裏面重點介紹了特徵分析的方法,這是我們在做用戶數據分析過程非常重要且必不可少的部分。而在特徵分析過程中,我們可以更加深入的瞭解業務特性,輸出更多的數據價值。這也是本文所希望能夠傳達出來的一塊重要信息。由於知識和篇幅所限,有很多細節沒能闡述得特別深入,有些方法也許不是最優的做法,歡迎對BI感興趣的同學加強交流,共同進步,更好地將數據價值應用到實際業務中。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章