SPSS:基本统计分析(二)
交叉分组下的频数分析
在进行数据分析的时候,往往需要对两个甚至多个分类变量的频数分布进行联合观察,此时就设计到了多个分类变量的联合描述。
基本任务
- 根据收集到的样本数据编制交叉列联表
- 在交叉列联表的基础上,对两组变量间是否存在一定的相关性进行分析
列联表
列联表又称交叉表,是一种用于交叉表格展示两个或多个分类变量各类别中频数大小的统计方式,常用于展示两个属性变量值的分布。列联表的大小记为I*J,其中I,J分别表示列联表的行数和列数。
例如:
行列变量间关系的分析
分析交叉列联表行列变量间关系,需要借助于非参数检验方法和度量变量间的相关程度的统计量等手段,通常采用的方法是卡方检验法。
- 建立原假设
列联表分析中卡方检验的原假设是:行变量与列变量独立 - 计算检验统计量
Pearson卡方统计量数学定义:
式中,r为列联表行数,c为列数,f0为观察频数,fe为期望频数 - 确定显著性水平和临界值
显著性水平a是指原假设为真却将其拒绝的风险,即弃真的概率,通常设为0.05或0.01。由于卡方统计量服从“(行数-1)*(列数-1)”个自由度的卡方分布,因此,在行列数目和显著性水平a确定时,卡方值是唯一确定的。 - 得出结论和决策
两种决策方法:- 根据统计量观测值和临界值比较的结果进行决策
如果卡方观察值>卡方临界值,则行列变量不独立,存在相关关系;
如果卡方观察值<=卡方临界值,则认为卡方值不够大,实际分布与期望分布之间的差异不显著,不能拒绝原假设,不能拒绝列联表的行列变量独立。 - 根据统计量观察值的概率P-值和显著性水平a比较的结果进行决策
如果卡方观测值的概率P-值<a,则认为在原假设成立的前提下,卡方观测值出现的概率很小,是一个本不应该发生的小概率事件,但却发生了,因此不得不拒绝原假设,即列联表的行列变量间不独立,存在依存关系;
如果卡方观测值的概率P-值>a,则认为在原假设成立的前提下,卡方观测值出现的概率是非小概率,是极可能发生的,因此没有理由拒绝原假设,不能拒绝列联表的行列变量是相互独立的。
- 根据统计量观测值和临界值比较的结果进行决策
说明:
- 列联表各单元中期望频数的大小: 列联表中不应有期望频数小于1的单元格,或不应有大量的期望频数小于5的单元格,否则不宜使用卡方检验,可以采用似然比卡方检验方法进行修正。
- 样本量的大小: 卡方值的大小会受到样本量的影响。假设各个单元格中的样本量均扩大10倍,卡方值也会随之扩大10倍,但由于自由度和显著性水平没有改变,卡方值的临界值不变,进而使拒绝原假设的可能性增加。
操作
SPSS中,需自行确定显著性水平,进行决策,卡方检验的其余步骤都由SPSS自动完成。