趕快學一下如何評估「營銷活動效率」

花花 /一個數據人的自留地

作者介紹

@花花

曾任職於美團、騰訊、今日頭條擔任數據分析師。

操盤過上百億的資源評估,與大家一起成長學習。

01 前言

在實際的評估工作中,不是所有的營銷活動都做了AB實驗,也不是所有進行了AB實驗的營銷活動都能準確評估出活動效果,比較典型的情況如下:

場景一:banner位要進行大促活動,但距離活動上線時間較短,如果要做AB實驗需要產研定製化開發,拿不到產研排期資源的情況下,運營往往會對全量用戶進行活動運營。事後要評估該大促活動的投入產出時,就沒有嚴格的實驗組和對照組進行對比,如果直接參加活動用戶作爲實驗組、用大盤未參加大促活動用戶作爲對照組,那麼實驗組和對照組本身就是存在很大差異的(參與大促活動的一般更加活躍且對補貼敏感),在這種情況下該怎麼進行評估才能得到更加合理的結論呢?

場景二:某直播平臺上線了一個直播間的新功能,並進行了AB實驗,其中實驗組能看到新功能,對照組看不到新功能。但是事後評估時發現,實驗組中雖然都能看到新功能且點擊使用該功能的用戶數據表現都很好,但是點擊使用該新功能的用戶***率很低,如果直接用AB實驗的實驗組和對照組相比較,那麼不能得到顯著性的結論。那麼直播間的這個新功能真的就沒有效果的嗎?

02 PSM方法簡介

爲了解決如上兩個場景的營銷活動效率評估,常常會根據實際情況matching一個對照組,傾向評分匹配(Propensity Score Matching,簡稱PSM)是matching的方法之一,使得實驗組和對照組進行更合理的比較。

PSM這種方法一般用於醫學、公共衛生、經濟學等領域。比如研究問題是吸菸對於大衆健康的影響,如果要進行隨機對照實驗,招收大量實驗用戶,然後隨機分配到吸菸組和不吸菸組,這種實驗設計不太容易實現,也並不符合科研倫理。

這種情況下觀察研究是最合適的研究方法,但是面對最容易獲得的觀察研究數據,如果不加調整,很容易獲得錯誤的結論,比如拿吸菸組健康狀況最好的一些人和不吸菸組健康狀況最不好的一些人作對比,得出吸菸對於健康並無負面影響的結論。

從統計學角度分析原因,這是因爲觀察研究並未採用隨機分組的方法,無法基於大數定理的作用,在實驗組和對照組之間削弱混雜變量的影響,很容易產生系統性的偏差。PSM就是用來解決這個問題,消除組別之間的干擾因素。

趕快學一下如何評估「營銷活動效率」

PSM的定義很直觀,是一個用戶屬於實驗組的 “傾向性”。具有不同特徵的用戶被幹預的概率應該相等。理論上,如果我們對每一個實驗組用戶都在對照組裏匹配一個得分相等的用戶,我們就能得到同質的實驗組和對照組,就可以假裝做了一個 A/B 實驗了,接着就可以隨意地進行組間比較。

在實際工作中,通過多期的觀測驗證PSM方法較爲適用於某些營銷場景,那麼可以將PSM模型產品化。運營同學無須每次提需求到算法側,只需要通過簡單的輸入就能獲得最終結果。

趕快學一下如何評估「營銷活動效率」

1)輸入

確定樣本集是PSM中最爲重要的一個環節,包含確定實驗組用戶和對照組用戶。實驗組用戶一般選取策略觸達的用戶或者是真實體驗到核心策略的用戶,具體根據營銷活動特點來定義,而對照組則是給到一個範圍,通過建模從給到的對照組範圍中篩選用戶特徵和實驗組相似的用戶作爲真實的對照組。

一般對照組的圈選範圍最好是有活動參與的傾向性但是並沒有參與的用戶,比如說是同樣有某個活動頁的曝光,體驗活動的用戶爲實驗組,有曝光但是未體驗該活動的用戶則爲圈選的對照組範圍。

2)PSM建模

首先要進行傾向性得分估算:這一步直接就是建模問題,自變量爲用戶特徵變量,按需做一下特徵預處理,套用LR或者其他更復雜的模型,如LR + LightGBM等模型估算傾向性得分。

其次進行傾向性得分匹配:在有了每個用戶的傾向性得分的基礎上,針對目前的實驗組用戶,匹配得到一個近乎於同質的對照組。當用戶量足夠時候,一個簡單做法是進行一對一無放回匹配:對於每一個實驗組用戶,我們去對照組裏找一個傾向性得分最近的用戶,把他們配成一對。匹配過程中,可以限制一下配對用戶的得分差異不能超過某一個閾值,配不上就放棄,以防把 “太不相似” 的用戶匹配在一起。

模型輸出及評價:模型的輸出包含了實驗用戶、構建的與之匹配的對照組用戶、傾向性得分,評價指標包含模型在訓練集上的AUC(越高說明傾向性建模越準確,一般AUC≥0.85則認爲效果較好)、各個特徵維度的匹配關係值(值越高說明這個特徵維度的匹配關係越好)。

3)效果計算

通過PSM構建出與實驗組用戶特徵類似的對照組,那麼效果計算的邏輯就和AB實驗的計算邏輯類似了。

03 PSM方法實操

以上面提到的場景一作爲案例,對沒有進行AB實驗的營銷活動進行效果分析。

確定樣本集範圍

實驗組:點擊進入大促活動頁面並領取到紅包的用戶A1,導出uesr_id明細作爲PSM實驗組輸入,假設用戶數爲10,000

對照組範圍:有大促頁面曝光但是未領取紅包用戶B1,導出uesr_id明細作爲PSM對照組圈選範圍輸入,假設用戶數爲50,000

PSM建模

從對照組範圍B1中通過PSM建模構建出用戶特徵和A1相似的用戶B2,一個實驗組用戶找到一個特徵相似的對照組用戶,所以B2的用戶數也爲10,000。模型的AUC=0.89,且其他特徵匹配值較好。

結果計算

可靠性:AUC>0.85,模型效果較好,匹配結果可以參考。

活動補貼效率計算:實驗組A1樣本量10,000,貢獻的總的GMV爲500,000元,總投入成本是50,000元;PSM構建的對照組B2樣本量10,000,貢獻的總的GMV爲300,000元,總投入成本是25,000元。最終計算該大促活動的投入產出比爲ΔGMV/Δ成本=(500,000-300,000)/(50,000-25,000)=8,那麼我們就可以得出該大促活動的投入產出比是8,即1元投入帶來8元的GMV。

04 後記

PSM不是適用於所有的營銷場景,一般來說適用於樣本量足夠、實驗效果較爲顯著且傾向性建模較爲可靠的場景,有些場景下難以定義對照組的範圍,這個時候如果用全量用戶(排除實驗組用戶)作爲對照組的圈選範圍,那麼最終的誤差可能較大。

因此建議在能做AB實驗的情況最好還是進行AB實驗,在真的無法做AB的情況下再考慮PSM,同時PSM可以結合DID+用戶分羣提高準確性。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章