简单易懂的人工智能系列：假设检验

统计假设检验（Hypothesis Test）：事先对总体的参数或者分布做一个假设，然后基于已有的样本数据去判断这个假设是否合理。即样本和总体假设之间的不同是纯属机会变异（因为随机性误差导致的不同），还是两者确实不同。常用的假设检验的方法有 t-检验法，（卡方检验），F-检验法等

基本思想：

第一步，根据具体的问题，建立假设：

如果原假设被拒绝（在原假设成立的情况下，计算的到的p值—成立的概率，小于了显著性检验水平，也就是原假设不可能发生），说明备择假设成立，而原假设没被拒绝（在原假设成立的情况下，计算的到的p值—成立的概率，大于了显著性检验水平，只是说明原假设可能发生），说明需要更多的证据来支持原假设是否成立。

第二步，确定检验水准（显著性水平）：

第三步，构造统计量：

根据资料类型，研究设计方案和统计推断的目的，选用适当检验方法和计算相应的统计量。

常用检验方法：

选择依据：

第四步，计算P值（概率）：

关于p值：

转存失败重新上传取消

对于P值，当P > a 时，只能说明不能拒绝原假设，但是也不能说明原假设是否就成立（需要收集更多的资料证据）

通过p值判断结论：

我们回顾一下掷硬币的问题，掷n次都是正面是已经发生的事实，实际上我们是希望硬币有问题（也就是我们是想拒绝的假设是硬币没有问题），而通过计算，统计量为二项分布，计算出来的p值当连续5次就已经小于显著性水平a = 0.05，因此，我们可以在n >= 5 的情况下拒绝原假设。

某工厂的一批产品，某次品率u 未知，按规定如果 u <= 0.01，则该批产品就可以接受。随机取样100个，发现有3件次品，该批次产品是否达标？

得到结论：P 值大于显著性水平 a,不能拒绝原假设。即通过本次采样得到的样本数据，并不能证明原假设Ho成立。不能证明原假设成立，也不能证明它不成立。总之目前次品率到底是低于0.01还是如何，在没有更多证据的情况下，没有任何结论。

得到结论：p值大于显著性水平a，不能拒绝原假设（活动无影响），即现有证据无法证明活动是否有影响。

以一元线性回归为例，可以使用假设检验作如下比较和推断：

对于一元回归，方程显著性检验和回归系数的显著性检验的原假设/备择假设是一样的，还有就是，在假设检验中，如果不拒绝原假设，即接受原假设而拒绝备择假设，意味着没有证据证明原假设是错误的，但是并不能肯定原假设一定是正确的。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.