A/B實驗，瞭解一下。

1 爲什麼要做A/B實驗？

A/B實驗，是一種驗證假設的方法，其核心方法及原理分別是對照實驗及假設檢驗。

在實際實驗時會從總體抽取部分個體組成樣本單位，並從個體實驗結果推斷總體結果。

1-1、實驗原因

由於對照實驗遵循單一變量原則，能通過對比發現因果性，並根據實驗結果量化正向和負向的影響程度。

當實現了某個新的特性，我們無法準確預估上線後是增益還是減益，從風險和成本的角度考量，會切分小流量進行驗證。

小型實驗也意味着大部分能在單研發團隊自助完成，時間和效率也能得到保障。

1-2、適用場景

A/B實驗，解決的是策略優化問題，它能幫助我們從可選策略中選擇最優策略。

它可以讓我們在已達到的山上越來越高，卻不能用它來發現一座新的山脈。

2 明確目的

數據分析的過程中一般的次序爲：相關性>>因果性>>效果。

先通過數據分析洞察相關性，再通過實驗提出假設，模糊預估其因果性。在證明成功後根據首次實驗效果，持續優化時再進行清晰預估。

3 確認指標

1）正負指標

正向指標，一般依據實驗路徑制定，是策略好壞的直接評價，如：留存人數->點擊人數->瀏覽人數->成交人數。

負向指標，適用於結果指標相近的場景，如實驗策略是下發公衆號模板，其中兩組的成交人數相近，但實驗組卻致使用戶取關人數激增。

如正向收益小於負向收益，則應分析問題考慮優化實驗或停止實驗。

2）結果、過程、觀察指標

結果指標是實驗目的，過程指標體現如何完成。觀察指標則指的相關性指標，多用於預估上升空間，如成交人數上升，但件均金額較低或購買對象僅覆蓋本人。

依據觀察指標，可以預估上升空間，並設計下一個實驗。這3個指標在此前《數據分析的邏輯思維及分析方法》已有較全面的描述，在這裏也不再贅述了，有興趣的朋友可以查閱該文章。

4 制定策略

4-1、實驗類型

1）互斥實驗

遵循單一變量原則的代表是互斥實驗，即用戶同時間僅可進行一個實驗，通過流量的互斥保障實驗結果不受干擾。

但當實驗越來越多，同時間可進行實驗的用戶量減少。流量不足，樣本的代表性差。如果要等待前述實驗結束再進行下一實驗，驗證週期增長、效率降低。

2）正交實驗

爲了解決互斥實驗的流量問題，使用的方法是正交實驗，也稱分層實驗。在此，分層的依據是不同的實驗。

正交實驗能使流量共享，同時進行多個實驗，但我們需保障各層的劃分參數相互獨立且互不影響。

如：上一層的綠色字體不能與綠色背景正交。但綠色字體可以與藍色背景正交實驗，綠色字體也可以與只能推薦正交。

最後還有一個小的細節是，實驗流量的來源不僅是上一層實驗。這裏涉及的內容可以參考谷歌的論文《Overlapping Experiment Infrastructure》。

4-2、實驗設計

實驗設計須注意的點是，儘量先粗後細，儘量先追求深度再追求廣度。當產品有明顯不佳的體驗，其實更應該迅速迭代優化，並不是每件事都要有數據、有實驗證明。

5 選擇樣本

5-1、抽樣的原則

1）唯一性原則

唯一性指在用戶進行實驗時，從始至終僅命中相同的策略。幫助我們更準確的歸因並讓用戶維持相同的體驗。

2）均勻性原則

均勻性原則有兩層定義，數量的均勻和特徵的均勻。

前者是爲了保證組間樣本數量，減少因數量小導致實驗波動過大，後者則能使樣本代表性更強。假設分組中的女性佔比過高，則實驗的結論無法推斷男性在這一實驗中是否有類似的行爲。

特徵的均勻也應與實驗目的相結合，如實驗指標爲某按鈕點擊率，實驗組樣本的點擊率已在較高的基準線上，則可能無法分析策略優劣。

5-2、抽樣方法

1）完全隨機分組

完全隨機分組，也稱CR（Complete Randomization），是最常見的隨機分組方式之一。常見的實現形式爲對某ID字段哈希後對10取模，根據結果值進入不同的組。

如果隨機選取ID進行哈希取模，那麼是簡單隨機抽樣。如果先將ID排序，逢6取1（6、16、26...）後再進行哈希取模，我們也稱之爲等距抽樣。

2）重新隨機分組

完全隨機分組，由於不考慮樣本的特徵是否均勻，可能會導致某組樣本的結果指標偏高或者偏低。爲了解決此問題，我們可以AA實驗觀察樣本差異或使用重新隨機分組（ReRandomization）。

其原理爲，每次隨機分組後，通過驗證組間差異是否小於設定的閾值。如果差異大於閾值，則重新分組，否則則停止分組。

此方法相比完全隨機分組更準確，由於缺乏重跑的依據，得到合適的樣本是概率性的，也可能造成很大的耗時。一般而言樣本量越大，重分的次數越少。

3）自適應分組

Adaptive自適應分組，是滴滴AI Lab團隊自研的分組方法，其能夠在只分組一次的情況下，讓選定的觀測指標在分組後每組分佈基本一致。

它在每次分組的時，記錄當前分配的樣本數以及樣本分佈，並計算當前對象分配至該組後該組的特徵均勻情況，從而決定應分至哪個組。

6 實驗分析

6-1、放量/全量

A/B實驗，是小流量驗證的實驗方式，那我們應如何放量呢？

其前提如下：

1）結果顯著，至少保證95%的可信度。

2）正向指標價值＞負向指標價值

3）效果穩定，不因時間週期等元素變化劇烈波動

常見的放量方式有兩種，流量開放以及實驗推廣。流量開放包含了實驗內對照組和實驗組流量的切分，也可在源頭再增加樣本。

實驗推廣，則是將此實驗在其他特徵、行爲的羣體中推廣。

6-2、再實驗&終止

再實驗的原因，從效果的次序來看是：無法肯定是否有效果->無效果->效果不明顯->負反饋。負反饋如果影響了核心流程，則應考慮終止實驗。

關於這2者的分析方法和需求分析是相近的，可以參考邏輯樹“自下而上”的方法，先將每1環節可能出現的問題，再依次向上聚合。

7 幾個理論

1）辛普森悖論

在分組中佔優勢的一方，在整體中有時反而是劣勢的一方。

2）倖存者偏差

只看結果，卻忽略了呈現結果的用戶是誰。

3）新奇效應

一開始對實驗策略有較好的迴應，但一段時間迅速消失。

前2者，主要用於探究樣本的代表性和均勻性。新奇效應則應在單一變量下，重複、長時地進行實驗，保障實驗結果不受實驗影響。

寫在最後

這篇文章始終感覺難度很大，從雙盲實驗到A/B實驗，這兩個詞已經被成千上萬的文章解讀過很多遍，讓我甚至寫不出前言。最終選擇的切入點是，邏輯梳理和知識再提煉。

也因爲再提煉，會根據自身的理解省略了前期建設、上線監控等環節，其中監控更適合開單章，而數學、算法原理已經有朋友總結了很全面了，有興趣的朋友可以閱讀下方的參考資料。

感謝你看到這裏，謝謝。

參考資料

1、騰訊PCG-E計劃：實驗設計及決策基礎篇

2、ABtest 和假設檢驗、流量分配

https://www.6aiq.com/article/1555861276270?p=1&m=0

3、假設檢驗的運用

https://www.cnblogs.com/wobujiaonaoxin/articles/11910326.html

4、abtest-數據分析-假設檢驗基礎

https://cloud.tencent.com/developer/article/1427845

5、哈希表是什麼

http://www.woshipm.com/pmd/805326.html

6、區塊鏈節點間的數據驗證：哈希值與非對稱加密

http://www.woshipm.com/blockchain/1019704.html

7、Overlapping Experiment Infrastructure重疊的實驗基礎設施

https://max.book118.com/html/2018/0131/151334020.shtm

8、AB實驗在滴滴數據驅動中的應用

https://mp.weixin.qq.com/s/RQmb4c0U3j7NKNWqERvkrQ

A/B實驗，瞭解一下。

高效率使用windows

智能決策新時代：可視化大屏是否能夠超越傳統白板？

解密Prompt系列28. LLM Agent之金融領域摸索：FinMem & FinAgent

分享幾個.NET開源的AI和LLM相關項目框架

陷入瓶頸的B端產品應該怎麼做？ 01 B端產品爲什麼會陷入瓶頸期？ 02 面向瓶頸的解題思路有哪些？ 03 爲什麼要深入運營？ 04 應該怎麼深入運營？寫在最後

如何理解SCRM中的用戶線索 01 用戶線索的應用平臺 02 用戶線索的定義 03 用戶線索的生命週期 04 推薦閱讀

20年公衆號年度總結 | 523天的成績單和流水賬

B端產品的指標設計思路

知識體系構建指南 1 知識VS知識體系 2 構建知識體系的步驟寫在最後

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結