數據運營系列（二）：如何用合成控制法判斷策略實施效果

原創

2020-05-30 16:30

1. 合成控制法

合成控制法最開始是經濟學家用來研究評估某個政策實施在某國家或地區的效果，原理即是反事實框架，假想該地區沒有受政策干預會怎樣，並與事實上受到干預的結果做對比。二者之差即爲“處理效應”。這裏D爲干預變量，X爲解釋變量，Y爲被解釋變量。因此合成控制法需要估計處理效應ATT:

那麼如何求解未受政策干預的結果呢？常用的解決方法就是尋找適當的控制組，即從其他相似的地區來組合成一個新的地區，新地區和實際受干預的地區一致。比如，要評估僅在A市實施的某政策效果，用其他城市（B市、C市、D市）進行適當的線性組合構成A市的控制組，即合成的A市，最後比較這個合成的A市和真實的A市在某一結果指標上的差別。

作爲因果推斷方法之一，合成控制法的特點主要是原理簡單、並且結果合理有說服力，可視化強。

2. 策略實施效果評估

比如某一業務線一直用戶規模穩健上升，爲實現快速用戶增長，在經費有限的情況下，運營方決定嘗試在2019年10月北京這一地區投放某一廣告持續一個月，如果效果顯著，再統一推廣到全國各地。那麼這裏如何評估效果？這一廣告是否需要推廣到全國？像這樣的場景又無法使用AB testing等實驗方法，那麼從數據驅動運營的角度分析，觀察研究比較適用於該場景分析，這裏選用合成控制法，該方法能更好地將結果可視化爲運營人員呈現。假設該業務的銷售情況基本不隨季節有較大變動。

數據集說明：

time：時間變量，年月
area：地區
age15to24：年齡在15到24歲的用戶比例
male：男性用戶比例
tenant：租房用戶比例
income：人均收入
sale_amount：人均購買量
user_amount：用戶滲透率

合成控制法的流程：

確定結果變量，這裏以用戶滲透率爲預測變量
確定預測變量，這裏包括age15to24（年齡在15到24歲的用戶比例，年輕人爲用戶目標對象）、male（男性用戶比例，男性爲目標用戶）、tenant(租房用戶比例，租房者爲目標用戶)、income（人均收入）、sale_amount（人均產品購買量）
確定用於合成對照組的個體，這裏將其他城市作爲合成對照組的個體
確定權重，通常算法是最小化預測均方誤差
檢驗擬合，即干預前一段時間內控制組和干預組因變量是否接近
檢驗安慰劑效應
檢驗穩健性

分析結果：

通過合成控制法分析結果發現，用於擬合北京市的城市由上海市、重慶市和廣東省組成，權重佔比分別爲0.54,0.32和0.14。其餘城市權重爲0。進一步考察北京市與合成北京市的預測變量是否接近。

表1 預測變量均值比較

變量	北京市	合成北京市
age15to24	0.207	0.191
male	0.502	0.511
tenant	0.445	0.432
income	0.661	0.661
sale_amount	0.428	0.427

在表1中，比較了實際的北京市和合成的北京市的預測變量均十分接近，故合成北京市可以很好地複製北京市的市場特徵。然後比較二者的結果變量上的差異：

圖1 合成控制法分析結果

上圖顯示了北京市和合成北京市在2019年1月-2020年3月期間的用戶滲透率。高程度的擬合表明，在廣告實施之前，合成北京市的用戶滲透率與真實北京市幾乎重合，表明合成北京市可以很好地作爲北京市的反事實替身。上圖表明廣告實施對用戶滲透率有很大影響，這種效應隨着時間的推移而增強。我們的結果表明，對於整個2019年10月到2020年3月期間的用戶滲透率提高了近20%，但對比自然增長效果，廣告帶來的用戶滲透率幅度不大，比如在2020年1月提高了近3.6%。廣告所帶來的用戶增長只佔18%（3.6%/20%），單從數據層面的來看，效果並不明顯，因此不建議推廣。

3. 學習資料

視頻資料：合成控制法視頻資源（一）

點擊“在看”可收藏隨時查看↘↘↘

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

數據運營系列（二）：如何用合成控制法判斷策略實施效果

1. 合成控制法

2. 策略實施效果評估

3. 學習資料

數據人如何提升自己？

這份99頁的PDF，幫你徹底搞定Pandas數據分析！（附8W源數據）

技術驅動業務？來潑個冷水吧......

數據產品的價值是什麼？

統計學出身但編程一般，該選擇數據分析還是挖掘算法？

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結