SPSS如何做离散和连续变量的统计描述
离散变量的统计描述
- 原始数据
§频数列表
§百分比
§累计频数
§累计百分比
- 集中趋势
§众数
连续变量的统计描述
频数表
操作步骤:确定组数;确定组距;确定各组段的上下限
各步骤的操作都存在着一些主观性,但因为只是进行初步的观察,这并无大碍
是一种非常直观的方法,但比较粗糙,如果希望进行深入的分析,则必须要使用一些严谨的统计指标对各方面特征加以描述
-
集中趋势
均数mean
§描述一组数据在数量上的平均水平,总体均数和样本均数用不同符号表示
§适用范围:对称分布,特别是正态分布资料
几何均数G
§针对正偏态资料集中趋势的描述而提出
§适用范围:对数正态分布资料,但往往被进一步扩大到等比资料
中位数median
§适用范围:万金油
§和均数相比较为迟钝,只有样本量较为充足时结果才稳定下来
众数mode
§所有数值中出现次数最多的一个
§适用范围:国外用的比较多
-
离散趋势
全距Range
§适用范围最广,但是也最不稳定
方差Variance
§离均差 描述个体变异
§离均差和 直接相加必然为0
§离均差绝对值之和 数学推导困难
§离均差平方和
标准差 std.deviation
§解决了阅读时量纲的问题
变异系数(coefficient of variation)
§解决了不同资料间变异程度对比的问题
§测量尺度相差太大:比较蚂蚁和大象的体重变异
§量纲不同:比较身高和体重的变异程度
百分位数
教科书上传统将其列为集中趋势的描述指标,但实际上不仅限于此,单独列为一类可能更为妥当
§适用于各种分布
§P2.5 P5 P10 P25 P50 P75 P90 P95 P97.5
使用条件:只有样本量较大时结果才比较稳定,对位于两端的百分位数而言更是如此
§100例时,P95右侧只有5例!
四分位数
§实际上是P25、P50和P75分位数的总称,他们正好能够将全部总体单位按标志值的大小等分为四部分的三个数值
§上(P75)、下(P25)四分位数的差值被称为四分位间距
-
分布形状(是否对称,分布曲线的形状)
§针对某种分布进行进一步的特征描述,主要是用于正态分布
§偏度系数Skewness 正态峰 正偏态 负偏态
§峰度系数Kurtosis 正态峰 平阔峰 尖峭峰
其他分布会有其他指标
-
分布特征(单、双峰,有无极端值等)
连续变量统计描述总结
- 正分布分布:
集中趋势:均数
离散趋势:标准差
- 非正态分布:
集中趋势:中位数
离散趋势:四分位数间距