假设检验之t检验详解

文章目录

假设检验之t检验详解

参考：https://blog.csdn.net/Tonywu2018/article/details/83897806

0. 背景故事

t检验又叫学生t检验（Student‘s t test），它是由20世纪爱尔兰的一家啤酒厂-健力士酒厂的一名员工（戈斯特）采用笔名“Student”发表的学术文章而得名。

1. 从一个例子引入t检验的思路

健力士公司是酿啤酒的，啤酒的原材料是麦子，因此公司种了很多麦田。假设有两片麦田，一块采用A工艺（旧）种植，另一块采用B工艺（新）种植。A工艺的麦田平均每株麦子可以结100粒穗子。公司想知道B工艺是否相比A工艺提高了产量。为了节约成本、小小损耗，抠门的资本家老板从B工艺的麦田里随机摘了5株大麦，每株麦子的平均穗子数量为120粒，看起来似乎产量提高了，因为每株麦子的麦穗粒数均值增加了20%。如何确定这样的结论是否可信呢？

原假设：B工艺没有提高产量，即AB工艺下的每株麦子麦穗数量服从同一个分布
备选假设：B工艺提高了产量

由中心极限定理，A工艺每株麦穗的粒数服从均值为100，方差未知的正态分布：

$X\sim N(\mu,\sigma^2)\tag{1-1}$
B工艺的单株麦穗粒数也可以认为服从正态分布。如果原假设正确的话，B和A服从同样的正态分布。那么这时候我们可以去评估出现5株均值为120的麦穗的概率是否很极端，来判断原假设是否合理。可以对B的每株麦穗数的分布归一化为标准正态分布，再去查表评估其概率值。也即要计算 $\frac{\bar x-\mu_0}{\delta_0}$ ，其中 $\bar x$ 是B工艺的麦穗粒数均值， $\mu_0$ 为A工艺的麦穗粒数均值， $\delta_0$ 为A工艺的麦穗粒数均值。由于B工艺是抽取出一定的样本数来计算均值 $\bar x$ 的，因此不能代表总体均值。当样本数很大时，根据大数定理可以直接认为B工艺提高了产量；当样本数很小时，可能是随机误差。因此，不妨对前面的式子再除以一个n相关的数。为此，戈斯特构造了一个新的统计量：
$t=\frac{\bar x-\mu_0}{\delta_0/\sqrt n}\tag{1-2}$
该统计量越大，寿命AB工艺导致的差别越大，越有可能说明B工艺提高了产量。

3. t分布

对于t统计量： $t=\frac{\bar x-\mu_0}{\delta_0/\sqrt n}$ ,其对应的概率密度函数也即t分布为：
$f(x)=\frac{\Gamma((\nu+1)/2)}{\sqrt(\nu \pi)\Gamma(\nu/2)}(1+t^2/\nu)^{-(\nu+1)/2}\tag{3-1}$
其中 $\nu=n-1$ 称为自由度， $\Gamma(x)=\int_0^{+\infty}t^{x-1}e^{-t}dt(x>0)$ 是伽马函数。
t分布的函数图像与正态分布有点像，给定t值和自由度，可以通过查表的方式去找到对应的P值。t分布表如下：

以本文中的例子为例，假设置信水平wie $\alpha=0.05$ ，查表得T值为2.132（单侧检验）。假设A工艺的标准差为 $5\sqrt5$ ，可计算得出t=4，大于T。因此可以拒绝原假设。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

假设检验之t检验详解

假设检验之t检验详解

文章目录

0. 背景故事

1. 从一个例子引入t检验的思路

3. t分布

NLP基礎之詞向量（Word2Vector）

RNN,GRU,LSTM及其變種詳解

排序模型入門詳解

nlp基礎之語言模型

隱馬爾科夫模型(HMM)入門詳解

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結