AB 測試中12個常見誤區

A/B測試很有趣。市面上已經有許多方便易用的工具,我們都可以(也應該)做到。然而A/B測試不僅僅是進行測試那麼簡單。以下12個常見的A/B測試誤區,浪費了許多企業的時間和金錢。

 

以下是我在工作中屢見不鮮的誤區。你有犯過這些錯誤嗎?讀一讀就知道了。

 

  • 過早停止A/B 測試

 

 

統計顯著性是在樣本量足夠大的前提下,A版是否優於B版的判斷標準。50%的統計顯著性即指結果隨機。如果你對顯著性的要求只有50%,那就該轉行了。統計置信度即便達到75%也不夠好。

 

經驗豐富的測試人員都有許多這樣的經驗,即使80%置信度下的“勝出”的版本,在投放市場後也以失敗告終。

 

90%的置信度怎麼樣?應該可以了吧!

 

不,還不夠好。你是在做科學實驗。是的,你希望證實實驗假設,希望置信度達到90%的版本勝出,但比“宣佈勝出者”更重要的,是找到真相。

 

 

作爲“優化者”,你的職責是找出真相。因此必須把自我放在一邊。你更傾向認可自己的假設或設計方案,這是人之常情;當你最優的假設沒有出現顯著性差異時,你會很受打擊。對此,我感同身受。真相高於一切,否則一切都失去意義。

 

即使經常進行A/B測試的公司也常見此種情況:一年裏一個接一個地運行測試,在測試後將勝出者推出。但一年後再看,轉化率竟然與最初版本差不多!這種打臉的情況總是發生。

 

爲什麼?要麼是測試結束得太早,要麼是樣本量太小,或者兼而有之。簡而言之,在宣佈測試完成之前,你需要滿足3個指標:

 

1.有足夠的樣本量:實驗有足夠的人蔘與,以便有足夠的數據來獲得科學的結論。需要使用A/B測試樣本量計算器預先計算所需樣本量。

 

2. 測試需要運行多個銷售週期,2到4周左右。如果你只做了幾天就停止測試(即使達到了所需的樣本量),也只是取了便利樣本,而不是有代表性的樣本。

 

3.顯著性達到95%(P≤ 0.05)或以上。注意:記住P值並不能告訴我們方案B比方案A好,這一點非常重要。(譯者注:P值指的是對比事物間的差別是由機遇所致的可能性大小。P值越小,越有理由認爲對比事物間存在差異。例如,P<0.05,就是說結果顯示的差別是由隨機因素所致的可能性不足5%,或者說,別人在同樣的條件下重複同樣的研究,得出相反結論的可能性不足5%P>0.05不顯著P≤  0.05顯著P≤ 0.01非常顯著。)

 

這裏有一個經典案例來說明我的觀點。測試兩天後的數據結果如下:

 

圖表中的文字翻譯如下:

 

 

我構建的版本相比對照版本損失慘重,超過89%(誤差範圍沒有重疊)。一些測試工具可能已經判斷其統計顯著性達100%。當時我所使用的軟件給出的結論是,我的版本完全不可能優於對照組。我的客戶已經準備好宣佈停用這個方案。

 

然而,由於當時樣本量太小(每個組只有100次以上的訪問量),我堅持繼續收集數據,這是10天后的情況:

 

 

 

圖表中的文字翻譯如下:

 


如你所見,曾經完全沒可能擊敗對照版本的新版本現在以95%的顯著性獲勝。

 

有些A/B測試工具會讓你過早結束,這得當心,一定要反覆檢查數據。最糟糕的情況就是,你採信了實際並不準確的數據,導致不僅損失了大量金錢,很可能幾個月的努力也都付之東流。

 

需要多大的樣本量?

 

小樣本基礎上得出的結論不靠譜。好的樣本區間是每個測試版本至少有350-400次轉化數據(在某些情況下,比如當對照版本和優化方案之間的差異很大時,轉化數據要求可以稍低一些)。但是,不存在放之四海皆準的標準樣本量。不要被數字束縛——這是科學,而不是魔法。

 

你一定要提前用樣本量計算器計算出實際需要的樣本量,以確保實驗的準確性。

 

如果每個變量版本都有超過350轉化數據的樣本量,而置信度依舊未達到95%以上呢?

 

如果測試達到所需樣本量,則意味着不同版本之間沒有顯著差異。檢查測試中各分指標的結果,看看是否在其中某一個或幾個中實現了顯著性(優秀的洞察總是出現在細節中,但也要確保每個分指標都有足夠的樣本量)。無論如何,你都需要優化假設,運行新的測試。

 

 

  • 測試未以整週爲單位運行

 

假設你有一個高流量的網站,A/B測試開始後3天就有98%的置信度,並且每個版本都有250次轉換數據。那這個測試算完成了嗎?還沒有。

 

我們需要排除週期性因素,以整週爲週期進行測試。如果你星期一開始進行測試,那麼也需要在下星期一結束。爲什麼?因爲在一週裏轉化率會變化會非常大。

 

所以如果你的測試周期沒覆蓋一個完整週,結果又會出現偏差。按周輸出你網站的每日轉換率報告,看看每天的轉化率有多大的波動。下面是一個例子:

 

 

圖表中的文字翻譯如下:

 

看見了嗎?週四的收入是週六和週日收入的2倍多,週四的消費轉化率幾乎是週六的2倍。

 

如果我們沒有按周爲單位實施測試,結果就會不準確。以下爲常規的測試循環:一次運行7天的測試。如果在這7天內沒有出現差異顯著的結果,則再運行7天。如果14天內還不顯著,再運行7天。

 

當然,首先你需要運行測試至少2周(我個人是至少4周,因爲2周通常是不準確的),然後再應用7天規則。

 

唯一可以打破這一規則的情況是,充分的歷史數據顯示,網站每天的轉換率都是相同的。即使如此,最好也測試完整一週後再說。

 

始終關注外部因素

 

測試時間剛巧在聖誕節怎麼辦(譯註:類比國內的雙十一)?節假日勝出的版本可能跟一月份的優勝版本不同。如果某個版本在諸如聖誕節這樣的購物季勝出,你肯定得在購物季結束後對它再進行測試。是否投放了大量的電視廣告或者其他大型廣告?這也會影響測試結果。你需要知道公司做了哪些(有可能影響測試結果的)營銷推廣活動。

 

外部因素肯定會影響測試結果。如果有疑問,那就再做測試。

 

 

  • 沒有流量(或轉換數據),也進行A/B測試

 

如果你每月只能賣出一到兩件商品,測試顯示,B方案比A方案轉換率高15%。可以得出這樣的結論嗎?不可以!

 

所有人都喜歡A/B測試,但在流量極小的情況下,它不應該作爲轉換率的優化工具。原因是,即使B方案好得多,也可能需要很長時間才能達到統計顯著性。

 

所以,如果你花了5個月的時間進行測試,會白白浪費大量財力。相反,你應該進行大規模的徹底的改版——直接切換到B版本。不需要對比測試,只需切換——並關注銀行賬戶的收入。這種做法,是大範圍改進,比如50%或100%。而且應該能馬上觀察到對收入(或者潛在客戶數量)的影響。時間就是金錢。不要浪費時間等待需要很長時間的測試結果。

 

 

  • 測試不是基於假設

 

我喜歡吃意大利麪。但是不太喜歡”意麪測試“(把它扔到牆上,看它是否粘在牆上)。意大利麪測試是指測試隨意的想法,觀察哪一個想法有效。這種隨意的測試會付出巨大的代價,浪費寶貴的時間和流量。千萬別這樣做。測試之前需要有假設。什麼是假設?假設是基於有限證據提出的陳述,它可以被驗證或證僞,並作爲進一步研究的起點。

 

也不應是”意大利麪假設“(隨意陳述)。你需要完成適當的轉化研究以發現問題出在哪裏,通過分析以找出問題可能是什麼,最終提出解決當前問題的假設。

 

如果在沒有明確假設的情況下開展A/B測試,B相對A優化了15%,那很好,但是你從中瞭解到什麼?什麼都沒有。增進對用戶的瞭解纔是我們更重要的工作。這有助於我們改進對用戶的理解,提出更好的假設進行測試。

 

 

  • 測試數據不發送到谷歌分析(Google Analytics)

 

平均值會撒謊,永遠記住這一點。如果你得到了版本A比版本B優勝10%的結論,這還不是全部。你需要切分開各個測試指標再進行分析,這些細節裏才洞察所在。

 

雖然許多測試工具都內置了指標分割的功能,但都無法與谷歌分析(Google Analytics)媲美。

 

你可以將測試數據發送到谷歌分析系統,並按你期望的方式進行細分。實際的情況是,人們會自定義維度或或事件。你可以進行高級細分,自定義報告。這些功能非常有用,並讓你真正從A/B測試(包括失敗的測試和未得出差異的測試)有所收穫。

 

底線:每次都把你的測試數據發送到谷歌分析,並把那些無效數據從結果中剔除。

 

 

  • 將寶貴的時間和流量浪費在愚蠢的測試上

 

你是在測試用戶喜歡什麼顏色嗎?別。

 

沒有最好的顏色,它只和視覺層級結構相關。當然,你可以在網上找到一些測試,有人通過測試顏色來獲得收益,但這些都是顯而易見的。不要浪費時間測試那些顯而易見的選擇,直接實現它就行了。你沒有足夠的流量,誰也沒有。把你的流量用在高影響的指標上,測試那些數據驅動型假設。

 

 

  • 第一次測試失敗就放棄

 

你設計了一項測試,但沒有提高轉化率。那好吧,我們嘗試在另一個頁面運行測試?

 

不要這麼快就放棄!大多數測試第一次都會失敗。我知道你很不耐煩,我也和你一樣,但迭代測試不可避免。你可以運行一項測試,從中有所收穫,改進對用戶的理解,優化假設。進行迭代測試,又有所收穫,再優化假設。再運行迭代測試,如此反覆。

 

我們曾經做過案例研究,其中包含了6次測試(測試同一頁),以實現我們期望的提升。這纔是真實的測試。那些批准測試預算的人—你的老闆和客戶—需要知道這一點。

 

如果期望一次測試就可以得出想要的結果,這樣的想法會白白浪費金錢,導致很多人失去工作。其實不必一定是這個結果。測試的花費對每個人來說都是一大筆數字。運行迭代測試,纔是資金的合理運用方式。

 

 

  • 不懂虛報的顯著性

 

統計顯著性並不是唯一需要注意的因素。還需要理解錯誤的測試結果。沒什麼耐心的測試人員希望跳過A/B測試,直接進行A/B/C/D/E/F/G/H測試。這,就是我們要討論的誤區。

 

或者,爲什麼不繼續再測呢?谷歌就曾經測試過41種藍色陰影效果!

 

但這並非好主意。測試的版本越多,虛報顯著性的機率就越高。同時測試41種藍色陰影的實驗設置下,即使置信度達到95%,錯報概率也高達88%。

 

主要結論:不要一次測試太多的版本。不管怎樣,最好做簡單的A/B測試,會更快得到結果,並且會更快地瞭解用戶,從而更多優化假設。

 

 

  • 用重複的流量同時進行多個測試

 

你發現了一種同時運行多個測試的捷徑:一個測試在產品頁面,一個測試在購物車頁面,還有一個在主頁(同時測量相同的指標)。這樣的設置很省時間,對吧?

 

但,如果設置不小心的話,這樣可能會扭曲結果。除非你預估這多個測試之間有很強的交互性,且測試之間的流量有很大的重疊(即同一批人),這樣做纔是OK的。如果測試間存在交互性且流量重疊,情況也會比較複雜。

 

如果你想在同一任務流中同時測試多個佈局樣式的新版本,例如結帳的3個步驟,那麼最好使用多頁實驗或MVT(MassVerification Test,量產驗證)來測量交互作用,並恰當地進行歸因。

 

如果你決定使用重疊的流量運行A/B測試,請記住讓流量均勻分佈。流量應始終平均分配。如果測試產品頁A和B,以及結算頁C和D,則需要確保B頁的流量是對半分進入C和D頁,而不是其他。

 

 

  • 忽略細微的成果
  •  

你提出的新版本對對照組勝出了4%。我曾聽到有人說:“哎呀,這點成績簡直是小菜一碟!我都懶得費心去實施它。”

 

事實上,如果你的網站已經體驗很好,流量不會一直有大幅的提升。實際上,流量大幅上升的情況是非常罕見的。如果現有網站很垃圾,每次測試後很容易發現提升幅度達到50%。但即使這樣情況也不會是無止境的。

 

大多數測試中勝出的方案可能只有很小的提升—1%,5%,8%。有時,1%的提升也會帶來數百萬美元的收入。這完全取決於我們面對的絕對數值。但這裏的關鍵是:你需要以12個月的時間跨度角度來看待這點提升。

 

當你只做了一次測試時,那就是一次測試。你要做很多很多的測試。如果你每個月都能把轉化率提高5%,那麼12個月內就會提升80%。這叫複利,通過數學計算出來。80%可不低。

 

所以,繼續取得這些微小的收益吧。最後它們會形成累加效應。

 

 

  • 沒有一直運行測試

 

每一個沒有測試的日子都是一種浪費。測試就是了解。瞭解你的用戶,瞭解什麼有效,以及爲什麼有效。你所有的洞察,都可以用於所有的營銷活動,比如PPC廣告(PayPerClick廣告,點擊付費廣告)等等。

 

不測試,就不知道什麼有效。測試需要時間和流量(而且需要很多流量)。

 

雖然要進行測試並一直運行,但這不意味着要做垃圾測試。絕對不要!你仍然要做適當的研究,提出恰當的假設等等。

 

測試要持續不斷地運行。學習如何制定制勝的A/B測試計劃。不斷優化你的計劃。

 

 

  • 對效度威脅一無所知

 

即使具備了合適的樣本量、適宜的置信水平和持續的監測,還無法保證你的測試結果有效。影響測試效度的因素有以下幾個方面。

 

工具性誤差

 

這是最常見的問題。當測試工具(或儀器)存在問題時,就會導致測試收集到的數據有缺陷。這通常是網站上的錯誤代碼造成的,這將扭曲所有的測試結果。需要加倍小心這種誤差。設置測試時,要像鷹眼一樣盯緊。確認記錄下了每個設定跟蹤的目標和指標。如果某些指標沒有發送數據(例如,“添加到購物車”的點擊數據),馬上停止測試,查找並解決問題,重置數據後再重新開始。

 

歷史效應

 

外界的變化可能導致測試數據不準確。可能是你的企業或某位高管的醜聞,也可能是某個特殊的節假日(聖誕節、母親節等),又或許是媒體的報道導致人們對你測試的某個方案有偏見。無論哪種情況,都要注意外界的變化。

 

選擇偏差

 

當我們錯誤地假設某部分的流量代表整個流量時,就會發生這種情況。例如,你利用電子郵件列表將促銷流量分發給正在測試的頁面。較之於普通訪客,訂閱了電子郵件的用戶會對該頁面喜愛得多。於是,你根據忠實用戶的反饋來優化頁面(例如着陸頁、產品頁等),以爲它們代表總體用戶的情況。但事實往往並非如此!

 

錯碼效應

 

某個版本的代碼有漏洞,導致測試數據出現缺陷。於是你提出瞭解決方案,讓這個版本回歸正常!然而,這個版本並沒有勝出或帶來差異。殊不知,你的解決方案在某些瀏覽器或設備上的顯示並不佳。每當你提出新的解決方案,請確保運行質量一致性測試,以確保它們在所有瀏覽器和設備中正確顯示。

 

結論

 

時至今日,很多優秀的工具都可以讓測試變得輕鬆容易,但是它們並不能替代你思考。我知道,統計學不是你大學時最喜歡的科目,但你應該好好溫習溫習了。從這12個誤區中汲取教訓,你就可以在測試中避開它們,取得真正的進步。

 

原文:Peep Laja的《12 A/B Split Testing Mistakes I See Businesses Make All The Time

原文鏈接:https://conversionxl.com/blog/12-ab-split-testing-mistakes-i-see-businesses-make-all-the-time/

發佈了209 篇原創文章 · 獲贊 14 · 訪問量 6萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章