假設檢驗之t檢驗詳解
參考:https://blog.csdn.net/Tonywu2018/article/details/83897806
0. 背景故事
t檢驗又叫學生t檢驗(Student‘s t test),它是由20世紀愛爾蘭的一家啤酒廠-健力士酒廠的一名員工(戈斯特)採用筆名“Student”發表的學術文章而得名。
1. 從一個例子引入t檢驗的思路
健力士公司是釀啤酒的,啤酒的原材料是麥子,因此公司種了很多麥田。假設有兩片麥田,一塊採用A工藝(舊)種植,另一塊採用B工藝(新)種植。A工藝的麥田平均每株麥子可以結100粒穗子。公司想知道B工藝是否相比A工藝提高了產量。爲了節約成本、小小損耗,摳門的資本家老闆從B工藝的麥田裏隨機摘了5株大麥,每株麥子的平均穗子數量爲120粒,看起來似乎產量提高了,因爲每株麥子的麥穗粒數均值增加了20%。如何確定這樣的結論是否可信呢?
原假設:B工藝沒有提高產量,即AB工藝下的每株麥子麥穗數量服從同一個分佈
備選假設:B工藝提高了產量
由中心極限定理,A工藝每株麥穗的粒數服從均值爲100,方差未知的正態分佈:
B工藝的單株麥穗粒數也可以認爲服從正態分佈。如果原假設正確的話,B和A服從同樣的正態分佈。那麼這時候我們可以去評估出現5株均值爲120的麥穗的概率是否很極端,來判斷原假設是否合理。可以對B的每株麥穗數的分佈歸一化爲標準正態分佈,再去查表評估其概率值。也即要計算,其中是B工藝的麥穗粒數均值,爲A工藝的麥穗粒數均值,爲A工藝的麥穗粒數均值。由於B工藝是抽取出一定的樣本數來計算均值的,因此不能代表總體均值。當樣本數很大時,根據大數定理可以直接認爲B工藝提高了產量;當樣本數很小時,可能是隨機誤差。因此,不妨對前面的式子再除以一個n相關的數。爲此,戈斯特構造了一個新的統計量:
該統計量越大,壽命AB工藝導致的差別越大,越有可能說明B工藝提高了產量。
3. t分佈
對於t統計量:,其對應的概率密度函數也即t分佈爲:
其中稱爲自由度,是伽馬函數。
t分佈的函數圖像與正態分佈有點像,給定t值和自由度,可以通過查表的方式去找到對應的P值。t分佈表如下:
以本文中的例子爲例,假設置信水平wie,查表得T值爲2.132(單側檢驗)。假設A工藝的標準差爲,可計算得出t=4,大於T。因此可以拒絕原假設。