假設檢驗之t檢驗詳解

假設檢驗之t檢驗詳解



參考:https://blog.csdn.net/Tonywu2018/article/details/83897806

0. 背景故事

t檢驗又叫學生t檢驗(Student‘s t test),它是由20世紀愛爾蘭的一家啤酒廠-健力士酒廠的一名員工(戈斯特)採用筆名“Student”發表的學術文章而得名。

1. 從一個例子引入t檢驗的思路

健力士公司是釀啤酒的,啤酒的原材料是麥子,因此公司種了很多麥田。假設有兩片麥田,一塊採用A工藝(舊)種植,另一塊採用B工藝(新)種植。A工藝的麥田平均每株麥子可以結100粒穗子。公司想知道B工藝是否相比A工藝提高了產量。爲了節約成本、小小損耗,摳門的資本家老闆從B工藝的麥田裏隨機摘了5株大麥,每株麥子的平均穗子數量爲120粒,看起來似乎產量提高了,因爲每株麥子的麥穗粒數均值增加了20%。如何確定這樣的結論是否可信呢?

原假設:B工藝沒有提高產量,即AB工藝下的每株麥子麥穗數量服從同一個分佈
備選假設:B工藝提高了產量

由中心極限定理,A工藝每株麥穗的粒數服從均值爲100,方差未知的正態分佈:

XN(μ,σ2)(1-1) X\sim N(\mu,\sigma^2)\tag{1-1}
B工藝的單株麥穗粒數也可以認爲服從正態分佈。如果原假設正確的話,B和A服從同樣的正態分佈。那麼這時候我們可以去評估出現5株均值爲120的麥穗的概率是否很極端,來判斷原假設是否合理。可以對B的每株麥穗數的分佈歸一化爲標準正態分佈,再去查表評估其概率值。也即要計算xˉμ0δ0\frac{\bar x-\mu_0}{\delta_0},其中xˉ\bar x是B工藝的麥穗粒數均值,μ0\mu_0爲A工藝的麥穗粒數均值,δ0\delta_0爲A工藝的麥穗粒數均值。由於B工藝是抽取出一定的樣本數來計算均值xˉ\bar x的,因此不能代表總體均值。當樣本數很大時,根據大數定理可以直接認爲B工藝提高了產量;當樣本數很小時,可能是隨機誤差。因此,不妨對前面的式子再除以一個n相關的數。爲此,戈斯特構造了一個新的統計量:
t=xˉμ0δ0/n(1-2) t=\frac{\bar x-\mu_0}{\delta_0/\sqrt n}\tag{1-2}
該統計量越大,壽命AB工藝導致的差別越大,越有可能說明B工藝提高了產量。

3. t分佈

對於t統計量:t=xˉμ0δ0/nt=\frac{\bar x-\mu_0}{\delta_0/\sqrt n},其對應的概率密度函數也即t分佈爲:
f(x)=Γ((ν+1)/2)(νπ)Γ(ν/2)(1+t2/ν)(ν+1)/2(3-1) f(x)=\frac{\Gamma((\nu+1)/2)}{\sqrt(\nu \pi)\Gamma(\nu/2)}(1+t^2/\nu)^{-(\nu+1)/2}\tag{3-1}
其中ν=n1\nu=n-1稱爲自由度,Γ(x)=0+tx1etdt(x>0)\Gamma(x)=\int_0^{+\infty}t^{x-1}e^{-t}dt(x>0)是伽馬函數。
t分佈的函數圖像與正態分佈有點像,給定t值和自由度,可以通過查表的方式去找到對應的P值。t分佈表如下:

t分佈表
以本文中的例子爲例,假設置信水平wieα=0.05\alpha=0.05,查表得T值爲2.132(單側檢驗)。假設A工藝的標準差爲555\sqrt5,可計算得出t=4,大於T。因此可以拒絕原假設。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章