目前學習瞭解假設檢驗中,學的不是很透徹,所以僅根據 A/B-test顯著性檢驗 講一講轉化率類型的假設檢驗。
一、伯努利分佈
一次實驗,兩種結果,就是伯努利試驗。
拋一次硬幣,結果爲正面爲事件A,則P(A)的期望和方差分別爲1/2,1/4,即p和p(1-p)
二、二項式分佈
重複n此的伯努利試驗,就是二項式分佈,重點是獨立同分布,沒什麼好說的。
拋n次硬幣,結果爲正面的次數爲事件A,則P(A)的期望和方差分別爲np和np(1-p)。n=1時就是伯努利分佈。
三、n值很大時的二項式分佈
棣莫弗-拉普拉斯中心極限定理就已經適用了,大意就是n很大時,二項式分佈B~(n,p)近似於正態分佈Z~(np,np(1-p))
中心極限定理描述的某種分佈的隨機變量之和的分佈,也就是n重伯努利試驗出現正面的總數的分佈,也就是二項式分佈。
想了解更多中心極限定理看這個大數定理與中心極限定理
四、轉化率與二項式分佈
從A頁面到B頁面,結果只有兩種,要麼到要麼不到。一個用戶到不到B頁面即是伯努利試驗。假定每個用戶到不到B頁面是獨立同分布的,那麼n個用戶有多少個到B頁面即是二項式分佈,當n很大時,近似於正態分佈。
n個用戶有k個到了B頁面,k/n就是轉化率。k滿足Z~(np,np(1-p)),按照正態分佈的特性,k/n也就滿足
Z~(np/n,np(1-p)/n^2)=(p,p(1-p)/n)。p也就是每個用戶訪問B頁面的概率,我們可以用樣本的k/n也就是轉化率作爲p的無偏估計
五、假設檢驗
我們有一個可能會影響轉化率的策略S,我們想用假設檢驗驗證S的效果。
那麼就將用戶隨機分爲兩組(一般都是第一個用戶適用A第二個就適用B,依此類推。),對A組用戶用策略S,B組保持原樣作爲對照組。
由於我們要驗證的是有策略S的A組是不是比B組好,所以選用單側假設檢驗。
H0:PA-PB<=0 H1 PA-PB>0
然後確立顯著性水平,一般都是5%,單側就是1.64倍標準差。
我們已經知道了PA、PB也就是A組、B組的轉化率都是滿足正態分佈的,根據正態分佈的性質,
PA-PB也滿足正態分佈Z~(μ1-μ2,σ1^2+σ2^2)也就是 (p1-p2,p1(1-p1)/n1+p2(1-p2)/n2)。
那麼就可以根據兩組的樣本量n和到達下個頁面的數量k,算出p。
然後算PA-PB再標準正態化,得到的值和1.64比較,如果大於1.64,也就是小概率事件發生了拒絕原假設,備擇假設爲真。
六、置信區間
僅僅給出是否顯著的結論,其實也是不恰當的。
最好能加上置信區間。如果一個試驗,儘管顯著,但方差大,置信區間特別寬,那麼試驗結果也不是很可信,隨機性太大。