保姆級教學：手把手教你如何實現同期羣分析

↑ 點擊上方 “凹凸數據” 關注 + 星標 ~

每天更新，大概率是晚9點

作者簡介
HeoiJin：立志透過數據看清世界的產品策劃，專注爬蟲、數據分析、產品策劃領域。萬物皆營銷 | 資本永不眠 | 數據恆真理
CSDN：https://me.csdn.net/weixin_40679090

前言
項目準備
同期羣分析概念講解
材料梳理
Excel實現
MySQL實現
Python實現
覆盤總結

一、前言

後互聯網時代，獲客拉新的成本越來越高，如何增加客戶的留存，提高客戶的復購次數、購買金額等變得十分重要，同期羣分析便是當中非常重要的分析方法。

關於同期羣分析概念和思路的文章很多，但分享如何實現的文章非常罕見。因此，本文將簡單介紹同期羣分析的概念，並用數據分析師的三板斧ESP（Excel、MySQL、Python）分別實現同期羣分析。

二、項目準備

Excel：

office或wps均可，office 2013後的版本更好

MySQL：

版本：8.0（本次不涉及窗口函數，其他版本亦可）
Navicat

Python：

版本：3.7
IDE：pycharm
庫：pandas、xlrt

PS.

因篇幅原因，可能會有未能詳細講解的過程
完整源碼及數據集請移步至文末鏈接或閱讀原文

三、同期羣分析概念講解

數據分析最終目標都是爲了解決業務問題，任何分析方法都只是工具。因此在詳細講解如何實現之前，需要先明晰方法的含義是什麼，能帶來什麼收益，才能在合適的問題上選對分析方法。

3.1 同期羣分析含義

同期羣(Cohort)即相同時間內具有相似或特定屬性、行爲的羣體。核心要素爲時間+特定屬性，比如把00後出生的人劃分爲一個羣組。

同期羣分析指將用戶進行同期羣劃分後，對比不同同期羣用戶的相同指標。我們耳熟能詳的留存率就是同期羣分析的其中一種，案例如下圖：

同期羣分析包含了3個重要元素：

客戶首次行爲時間，這是我們劃分同期羣的依據
時間維度，即上圖中+N月或者N日留存率中的N日
指標，註冊轉化率、付款轉化率、留存率等等

3.2 意義

同期羣分析給到更加細緻的衡量指標，幫助我們實時監控真實的用戶行爲、衡量用戶價值，併爲營銷方案的優化和改進提供支撐：

橫向比較：觀察同一同期羣在不同生命週期下的行爲變化，推測相似羣體的行爲隨時間的變化
縱向比較：觀察不同的同期羣在同一個生命週期下的行爲變化，驗證業務行爲是否取得預期效果

四、材料梳理

4.1 數據情況梳理

拿到數據的第一步，自然是瞭解數據的情況。針對本次同期羣分析，我們可能需要用到的字段有：

客戶暱稱
付款時間：時間戳形式
訂單狀態：交易失敗/交易成功
支付金額
購買數量

通過進一步計算，發現付款時間中缺失值所在行的訂單狀態均爲“交易失敗”，那麼下文分析都需要將訂單狀態爲“交易失敗”的行全部剔除。

4.2 分析方法確定

針對此份數據，有3個分析方向可以選擇：

留存率或付款率
人均付款金額
人均購買次數

我們選擇其中最經典，也是數分面試中最常考的留存率作爲例子，需要用到的字段有：

客戶暱稱
付款時間
訂單狀態

相信各位對留存率都十分熟悉，不過多介紹。在本次的分析中，留存率的具體計算方式爲：+N月留存率=（+N月付款用戶數/首月付款用戶數）*100%

注意：公式中的+N月存在歧義，會有兩種計算方法：

以自然月作爲月份偏移的依據：即所有首次行爲在9月的用戶，只要10月有付款行爲，都計算進+1月留存
以每30天作爲月份偏移的依據：即9月30日首次付款的用戶，在10月30日-11月29日之間有付款行爲，才計算進+1月留存

具體的差距會在Excel（用算法1）和MySQL（用算法2）兩種工具實現的結果中分別展示。沒有相關技術背景的看官老爺可直接對比最終的留存率結果。

五、Excel實現

Excel的實現方式是三個當中門檻最低的，只需要掌握數據透視表和一些基礎函數，但過程相對繁雜。實現思路如下：

實現思路一共分爲4大部分：數據清洗 -> 計算首單時間 -> 計算首單時間與付款時間差 -> 利用透視表計算同期羣留存量和留存率。其中由於部分版本的office和wps的數據透視表不支持非重複計數，因此需要先計算各月中各用戶出現的次數。

數據清洗部分只需要篩選+刪除便可完成，相信如此簡單的操作難不倒各位看官老爺們，那麼我們便從第二部分開始詳細講解。

5.1 計算每個客戶首單時間

首先通過數據透視表求每一個用戶首次付款時間。數據透視表，說白了就是通過特定的條件進行分組，並對數據進行求和、求均值、求方差等聚合操作。在製作數據透視表時要注意以下幾點：

數據區域的第一行爲標題欄（字段名稱）
標題欄不能出現空單元格，亦不要出現重複的標題名
數據中避免有合併單元格
不能出現非法日期

5.1.1 創建透視表

全選數據 -> 插入 -> 數據透視表 -> 確定

5.1.2 選擇分組字段和值字段

將“客戶暱稱”拖進“行”，將付款時間拖進“值”，並將值字段設置中的彙總方式設置爲最小值

這裏最小付款時間顯示爲10位的時間戳，只要調整顯示格式便可轉爲我們常見的xx年xx月xx日。

5.1.3 將首單時間拼接到每個用戶所在行

此步驟需要使用到vlookup函數進行匹配。VLOOKUP函數是一個縱向查找的函數，包含4個參數，具體語法爲=VLOOKUP（查找的依據，查找的區域，返回的值在查找區域中的列號，是否近似匹配）

注意：

查找的位置如果要保持不變，要使用A:B或者$A$1:$B$15的形式鎖定匹配區域
參數[ 查找的位置 ]中，“!”號前爲表的名稱
列號的計數是從1開始，且第一列必須是與查找依據對應的列
近似匹配參數中，0爲否（即必須與查找依據一模一樣才匹配），1爲是（即依據爲“同期”時，可以匹配出“同期”、“同期羣”或者“同期羣分析”）

=VLOOKUP(A2,首付時間透視表!A:B,2,0)

利用VLOOKUP拼接之後，首單時間同樣顯示爲10位的時間戳，設置單元格格式後即可顯示爲上圖的形式。

5.2 計算時間差

5.2.1 對付款時間和首單時間進行降採樣

如按算法2進行計算，可直接省略此步驟。

可能有看官老爺對重採樣的概念並不是很清楚，簡單說下：

將時間序列從一個頻率轉化爲另外一個頻率的過程即重採樣
常見的時間頻率由低到高依次爲：年 -> 月 -> 日 -> 時 -> 分 -> 秒
將高頻率轉爲低頻率爲降採樣，將低頻率轉爲高頻率爲升採樣

在Excel當中可以使用分列或者時間相關函數（YEAR、MONTH、DAY等）方式來獲取到對應的時間頻率。我們使用YEAR和MONTH來對時間進行降採樣，注意與字符串連接一定要用“&”號。

=YEAR(B2)&"/"&MONTH(B2)

5.2.2 計算時間差

此步驟中需要用到DATEDIF函數，此公式常用於計算兩個日期之間的天數、月份、年數差，語法爲：=DATEDIF（起始時間，結束時間，時間頻率），常用的時間頻率參數有['Y','M','D']，分別對應年月日

=DATEDIF(E2,D2,"M")

5.2.3 重置月份差標籤

修改透視表的標籤並不方便，因此先重置月份差標籤，需要用到一個IF函數便可。具體語法：=IF（條件，符合條件時的操作，不符合條件時的操作）

=IF(F2=0,"首月","+"&F2&"月")

5.3 計算同期留存量和留存率

如果是office 2013及之後的版本，以上的數據已經足夠我們進行留存量的計算，可以直接跳過計算用戶出現次數環節。

5.3.1 計算每月中每個用戶出現的次數

這裏利用COUNTIFS函數，計算出“用戶暱稱”和“付款時間（重採樣）”均相同的次數，並取其倒數，讓當月無論該用戶出現多少次，最終都只會計算爲一次。即假設用戶當月付款5次，倒數後權重變爲1/5，求和後出現次數爲1。

COUNTIFS的語法爲：=COUNTIFS（區域A，條件A，區域B，條件B，....）

=COUNTIFS(A:A,A:A,D:D,D:D,E:E,E:E)

=1/H2

5.3.2 創建留存量數據透視表

針對wps及office2013以前的版本，我們已經計算了出現次數的倒數，只需要仿照前文“計算每個用戶首單時間”的步驟創建數據透視表，以“首單時間重採樣”作爲行，以“月份差標籤”作爲列，以“出現次數（倒數）”作爲值，並修改值字段設置中的計算類型爲求和即可。

而office 2013及之後的版本，我們在插入數據透視表時，需要注意勾選“將此數據添加到數據模型”

同樣以“首單時間重採樣”作爲行，以“月份差標籤”作爲列，但不同的是，我們可以直接以“客戶暱稱”作爲值，並在值字段設置當中，將計算類型設置爲“非重複計數”。

到此，我們留存量的透視圖便完成了，但格式看上去還是有點醜，我們手動拖動下行、列標籤的排序，最終獲得如下效果：

5.3.3 計算留存率

在值字段顯示方式當中並沒有找到我們想要的效果，因此我們在數據透視表下方選定一個區域，複製好行標籤和列標籤。通過公式“=C5/$B5”計算出留存率，並向右向下拖動公式便可完成

注：

B5爲2019年9月的首月留存量，C5爲2019年9月的+1月留存量
分母需要將B列鎖定，否則在向右拖動公式時，分母會依次變爲C5、D5、E5

完美符合我們預期的結果！Excel版本的實現就到這裏便完成，接下來是門檻稍微高一億點點的MySQL實現。

六、MySQL實現

MySQL的實現路徑與Excel的實現路徑非常相近，具體步驟爲：

導入數據
清洗數據：篩選訂單狀態爲“交易成功”的行
獲取首單時間
求月份偏移：求出月份差，並對首付時間降採樣
計算留存量：通過首付時間和月份差進行分組，求唯一的用戶id數
求留存率

6.1 導入數據

目前的數據的保存格式爲xlsx，我們需要先將數據導入到數據庫當中才能執行查詢。第一步選擇一個庫，右鍵選擇導入嚮導。

第二步選擇導入類型，我們直接選擇Excel文件即可。

第三步爲選擇數據源的路徑，我們找到對應的數據後，勾選需要導入的表。

完成前文的操作之後便可以點擊“>>”跳轉至最後的步驟，當然中間還有幾個調整數據的步驟，但此次數據十分工整，不需要進行額外操作。

到達下圖的界面，我們按照指引直接點擊“開始”即可，如導入成功，會在日誌欄中顯示Finished successfully，如下圖所示。

6.2 數據清洗

照舊先篩選出訂單狀態爲交易成功的行，並提取用戶暱稱、付款時間兩個字段。這裏我們稍微修改了列名，把`用戶暱稱`修改成`c_id`，`付款時間`修改爲`paytime`，`交易狀態`修改成了`status`。

我們後續的查詢都是基於篩選後的數據，因此這裏新建一個表sheet2去存儲查詢結果。

-- 步驟一：篩選訂單狀態爲”交易成功“的行，並輸出表sheet2：用戶暱稱[c_id]、付款時間[paytime]
CREATE table sheet2 as
SELECT c_id,paytime
FROM sheet1
WHERE `status`='交易成功';

6.3 計算首單時間

此步驟只需要對用戶暱稱進行groupby，再求最小值即可，不多贅述。

-- 步驟二：找出每個用戶的首單時間
SELECT c_id,min(paytime) f_time
FROM sheet2
GROUP BY c_id;

6.4 計算月份差，重採樣首付時間

此步驟中會涉及到兩個重要的函數：

與Excel類似，MySQL對時間戳重採樣也是用YEAR()、MONTH()等函數
用於計算日期差的TIMESTAMPDIFF，具體語法爲TIMESTAMPDIFF(頻率，起始時間，結束時間)

當然在計算月份差之前，需要以用戶名稱作爲依據，拼接用戶的首單時間。但由於數據量較大，拼接需要重複遍歷整個表很多遍，耗時很長。而當前查詢的結果並不是最終結果，我們只需要確保查詢語句沒有問題即可。因此我們引入分頁查詢（LIMIT語句）來限制查詢結果的行數，從而提高查詢效率。

-- 步驟三：求出月份差，對首付時間進行重採樣
SELECT
 a.c_id,
 b.f_time,
 TIMESTAMPDIFF(MONTH,b.f_time,a.paytime) m_diff,
 CONCAT(YEAR(b.f_time),"年",MONTH(b.f_time),"月") y_m
FROM sheet2 a
LEFT JOIN (
 SELECT c_id,min(paytime) f_time
 FROM sheet2
 GROUP BY c_id
--  LIMIT測試時用，爲了提升效率
 LIMIT 0,7000
) b on a.c_id=b.c_id
-- 同樣是爲了提升效率而使用
WHERE b.f_time is NOT NULL;

6.5 計算留存量

我們只需要將前面的三個步驟作爲子查詢，並以`首單時間`以及`月份差`作爲條件對數據進行分組，用DISTINCT篩選出唯一的`用戶ID`即可求出我們所需的留存量。這裏創建一個名爲cohort的表儲存查詢結果。

-- 步驟四：通過首付時間和月份差進行分組，求出唯一的用戶id數,並輸出爲表[cohort]
CREATE table cohort as
SELECT c.y_m "首付月份",c.m_diff"月份差",COUNT(DISTINCT c.c_id) "留存量"
FROM (
SELECT
 a.c_id,
 b.f_time,
 TIMESTAMPDIFF(MONTH,b.f_time,a.paytime) m_diff,
 CONCAT(YEAR(b.f_time),"年",MONTH(b.f_time),"月") y_m
from sheet2 a
LEFT JOIN (
 SELECT c_id,min(paytime) f_time
 FROM sheet2
 GROUP BY c_id
) b on a.c_id=b.c_id
-- 爲了提升效率而使用
WHERE b.f_time is NOT NULL
) c
GROUP BY c.y_m,c.m_diff;

查詢結果如下。相比於步驟三，我們這裏刪除了用於分頁查詢的LIMIT語句，但依然保留了WHERE b.f_time is NOT NULL。這裏的where語句並沒有篩選任何一行，但有無這一句的查詢效率相差非常大，分別爲0.739s和125.649s。這裏涉及到SQL優化的問題，有機會以後專門整理一篇文章分享給各位。

6.6 計算留存率

我們有了留存量的表格，計算留存率便非常容易，只要讓每一期的留存率都除以首月的留存率即可。

-- 步驟五：計算留存率（基礎版）
SELECT c.`首付月份`,CONCAT(ROUND((c.`留存量`/m.`留存量`)*100,2),"%") 留存率
FROM cohort c
LEFT JOIN (
 SELECT 首付月份,留存量
 FROM cohort
 where `月份差`=0
) m
on c.`首付月份`=m.`首付月份`;

留存率結果如上圖，但結果並不利於觀察和分析，因此接下來的進階版將通過case when語句，加入億點細節來優化下展示格式。

-- 步驟五：計算留存率（進階版）
SELECT
 n.`首付月份`,
 AVG(n.`留存量`) "本月新增",
 CONCAT(sum(n.`+1月`),"%") "+1月",
 CONCAT(sum(n.`+2月`),"%") "+2月",
 CONCAT(sum(n.`+3月`),"%") "+3月",
 CONCAT(sum(n.`+4月`),"%") "+4月",
 CONCAT(sum(n.`+5月`),"%") "+5月"
FROM(
 # 一級子查詢：轉置表格，將月份差作爲列名
 SELECT
  a.`首付月份`,
  a.`留存量`,
  CASE a.`月份差` when 1 THEN a.`留存率` ELSE 0 END "+1月",
  CASE a.`月份差` when 2 THEN a.`留存率` ELSE 0 END "+2月",
  CASE a.`月份差` when 3 THEN a.`留存率` ELSE 0 END "+3月",
  CASE a.`月份差` when 4 THEN a.`留存率` ELSE 0 END "+4月",
  CASE a.`月份差` when 5 THEN a.`留存率` ELSE 0 END "+5月"
 FROM(
  # 二級子查詢：計算留存率
  SELECT a.`首付月份`,b.`留存量`,a.`月份差`,ROUND((a.`留存量`/b.`留存量`)*100,2) 留存率
  FROM cohort a
  LEFT JOIN (
   # 三級子查詢：查詢首月用戶量
   SELECT `首付月份`,`留存量`
   FROM cohort
   WHERE cohort.`月份差`=0
 ) b
 on a.`首付月份`=b.`首付月份`
 ) a
) n
GROUP BY n.`首付月份`;

正如“分析方法確定”環節中提及，Excel中通過自然月去劃分月份的偏移量，而MySQL中則直接將付款時間和首單時間相減。我們使用的TIMESTAMPDIFF函數的邏輯爲結束日期的DAY參數大於等於起始日期的DAY參數時，月份差纔會+N。即：

起始日期爲9月30日，終止日期大於等於10月30日時，月份差纔不爲0。
起始日期爲10月31日，終止日期大於等於12月1日時，月份差纔不爲0。
起始日期爲1月30或31日，終止日期大於等於3月1日時，月份差纔不爲0，平/閏年一樣。

對比可知，算法1中留存率會出現小幅度的回升，但在算法2則隨時間增加而遞減。由此可知，不同的計算標準對結果影響非常大，可能會造成誤判，因此數據分析中確認標準非常重要。

七、Python實現

作爲壓軸，肯定是路子野、效率高、操作騷的Python。得益於pandas強大的分組功能及非常多的奇技淫巧，Python的實現相比於Excel或MySQL會更加簡單，但實現路徑會比較抽象，需要注入一點想象力。按慣例先盤實現思路：

數據清洗：刪除訂單狀態爲”交易失敗“的行
拼接首單時間：計算每個用戶首單時間，並拼接爲新的dataframe
求留存量：對數據分組，並求唯一的客戶暱稱數
求留存率：用首月留存量除整個留存量的dataframe

7.1 數據清洗

此步驟只需要調用drop函數即可完成刪除，難度不大，核心是找到訂單狀態爲“交易失敗”的所在行的行索引。

df.drop(index=df[df['訂單狀態'] == '交易失敗'].index, axis=1, inplace=True)

7.2 拼接首單時間

調用分組聚合函數groupby以及數據拼接函數merge便能完成我們的需求，都是常規操作

df_f = df.groupby(by='客戶暱稱')['付款時間'].min().to_frame(name='首單時間')
df_f.reset_index(inplace=True)

# 合併新的dataframe，包含客戶暱稱，付款時間，首單時間
df_f = df[['客戶暱稱', '付款時間']].merge(df_f)

7.3 計算留存量

接下來就是見證騷操作的時刻了。在pandas的分組聚合當中，對時間戳進行重採樣不要太簡單，只需要修改freq參數即可。核心思路：

利用groupby函數對首單時間和付款時間進行分組，獲得複合索引的series
利用pd.Grouper對首單時間和付款時間進行重採樣
利用nunique函數求不重複值個數
利用unstack函數將複合索引的series轉爲dataframe

# 通過首單時間及付款時間進行分組，獲得每個時間段的不重複客戶數量
df_f = df_f.groupby(by=[pd.Grouper(key='首單時間', freq='m'), pd.Grouper(key='付款時間', freq='m')])['客戶暱稱'].nunique()

# 將複合索引的series轉置爲dataframe
df_f = df_f.unstack()

獲得的結果如上圖。如果有看Excel或MySQL實現方式的看官可能有會有疑問，爲什麼python不用計算月份差而其他兩種需要。那是因爲這種分組方式，首月用戶量都分佈在表格的對角線上，在Excel的數據透視表或者MySQL當中，等差地移動單元格並不是一件容易的事，但對於Python來說，不過是一個for循環。

for i in range(len(df_f.index)):
 df_f.iloc[i] = df_f.iloc[i].shift(periods=-i)
  
# 重置columns
df_f.columns = ['本月新增', '+1月', '+2月', '+3月', '+4月', '+5月']

shift函數常用於移動dataframe或series，具體參數如下：

axis：針對dataframe：{0:"向下移動" , 1:"向右移動"}，針對series：向下移動
periods：移動的步長，當periods爲負時，向上/左移動
fill_value：補充NaN的值

得到如下結果

7.4 計算留存率

儘管pandas非常強大，但此步驟中，如通過df_f/df_f[‘首月’]計算，結果是全爲NaN的dataframe。不過我們可以使用apply函數遍歷dataframe來實現。

df_1 = df_f.apply(count_per, axis=0, args=(df_f['本月新增'],))
df_1['本月新增']=df_f['本月新增']

def count_per(s, dx):
    a=[f'{i}%' if str(i)!='nan' else 0 for i in round((s / dx) * 100, 2)]
    return a

作爲pandas中最好用的函數之一，apply的詳細用法各位參考官方文檔即可，這裏僅提三點注意事項：

在apply中調用的函數不需要加括號，僅提供函數名即可
向apply調用的函數傳遞變量，只需賦值給args，如果僅傳遞一個變量，要在變量後加上 “，”號
調用的函數當中第0個參數由self提供，從第一個變量開始纔是args中的變量，即上面函數中，dx對應的是df_f['本月新增']

獲得結果如下，完美完成任務：

八、覆盤總結

先回顧下同期羣分析的重點

同期羣分析指將用戶進行同期羣劃分後，對比不同同期羣組用戶的相同指標的分析方法
同期羣分析是產品數據分析的核心，能細緻地監控用戶行爲，衡量用戶價值
時間的劃分標準對分析結果影響很大，確定標準非常重要

最後總結下本次ESP實現方式中分別涉及到的重要知識點

工具	重要知識點
Excel	- 數據透視表 - VLOOKUP函數 - 時間重採樣函數：YEAR、MONTH - 時間差函數：DATEDIF - 條件函數：IF、COUNTIFS
MySQL	- 時間重採樣函數：YEAR、MONTH - 時間差函數：TIMESTAMPDIFF - 流程控制函數：CASE WHEN
Python	- 分組api：pd.Grouper() - 不重複計數：nunique() - 元素移動：shift() - apply()