假设检验之t检验详解

假设检验之t检验详解



参考:https://blog.csdn.net/Tonywu2018/article/details/83897806

0. 背景故事

t检验又叫学生t检验(Student‘s t test),它是由20世纪爱尔兰的一家啤酒厂-健力士酒厂的一名员工(戈斯特)采用笔名“Student”发表的学术文章而得名。

1. 从一个例子引入t检验的思路

健力士公司是酿啤酒的,啤酒的原材料是麦子,因此公司种了很多麦田。假设有两片麦田,一块采用A工艺(旧)种植,另一块采用B工艺(新)种植。A工艺的麦田平均每株麦子可以结100粒穗子。公司想知道B工艺是否相比A工艺提高了产量。为了节约成本、小小损耗,抠门的资本家老板从B工艺的麦田里随机摘了5株大麦,每株麦子的平均穗子数量为120粒,看起来似乎产量提高了,因为每株麦子的麦穗粒数均值增加了20%。如何确定这样的结论是否可信呢?

原假设:B工艺没有提高产量,即AB工艺下的每株麦子麦穗数量服从同一个分布
备选假设:B工艺提高了产量

由中心极限定理,A工艺每株麦穗的粒数服从均值为100,方差未知的正态分布:

XN(μ,σ2)(1-1) X\sim N(\mu,\sigma^2)\tag{1-1}
B工艺的单株麦穗粒数也可以认为服从正态分布。如果原假设正确的话,B和A服从同样的正态分布。那么这时候我们可以去评估出现5株均值为120的麦穗的概率是否很极端,来判断原假设是否合理。可以对B的每株麦穗数的分布归一化为标准正态分布,再去查表评估其概率值。也即要计算xˉμ0δ0\frac{\bar x-\mu_0}{\delta_0},其中xˉ\bar x是B工艺的麦穗粒数均值,μ0\mu_0为A工艺的麦穗粒数均值,δ0\delta_0为A工艺的麦穗粒数均值。由于B工艺是抽取出一定的样本数来计算均值xˉ\bar x的,因此不能代表总体均值。当样本数很大时,根据大数定理可以直接认为B工艺提高了产量;当样本数很小时,可能是随机误差。因此,不妨对前面的式子再除以一个n相关的数。为此,戈斯特构造了一个新的统计量:
t=xˉμ0δ0/n(1-2) t=\frac{\bar x-\mu_0}{\delta_0/\sqrt n}\tag{1-2}
该统计量越大,寿命AB工艺导致的差别越大,越有可能说明B工艺提高了产量。

3. t分布

对于t统计量:t=xˉμ0δ0/nt=\frac{\bar x-\mu_0}{\delta_0/\sqrt n},其对应的概率密度函数也即t分布为:
f(x)=Γ((ν+1)/2)(νπ)Γ(ν/2)(1+t2/ν)(ν+1)/2(3-1) f(x)=\frac{\Gamma((\nu+1)/2)}{\sqrt(\nu \pi)\Gamma(\nu/2)}(1+t^2/\nu)^{-(\nu+1)/2}\tag{3-1}
其中ν=n1\nu=n-1称为自由度,Γ(x)=0+tx1etdt(x>0)\Gamma(x)=\int_0^{+\infty}t^{x-1}e^{-t}dt(x>0)是伽马函数。
t分布的函数图像与正态分布有点像,给定t值和自由度,可以通过查表的方式去找到对应的P值。t分布表如下:

t分布表
以本文中的例子为例,假设置信水平wieα=0.05\alpha=0.05,查表得T值为2.132(单侧检验)。假设A工艺的标准差为555\sqrt5,可计算得出t=4,大于T。因此可以拒绝原假设。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章