spss数据的预处理

数据清洗:对获取的原始数据中的缺失值进行填补,分析数据中是否存在离群点,对噪声数据进行平滑等,并利用适当的技术对这些“脏数据”进行清洗,提高数据的质量。
数据集成:将来自不同数据源的数据进行合并,去除可能存在的冗余数据,保证数据的一致性。
数据变换:对数据进行规范化处理,将数据转换为有利于数据挖掘的形式。
数据规约::将数据集转换为相对简单的形式。若需要对离散型数据进行挖掘需要先将连续型数据量化
数据预处理的其他功能:转置、加权、数据拆分等。

预处理的内容:

  • 数据的排序
    SPSS的数据排序是将数据编辑窗口中的数据按照某个或多个指定变量的变量值升序或降序重新排列。这里的变量也称为排序变量。
    排序变量只有一个时,排序称为单值排序。排序变量有多个时,排序称为多重排序。
    多重排序中,第一个指定的排序变量称为主排序变量,其他依次指定的变量分别称为第二排序变量、第三排序变量等。
    SPSS数据排序的基本操作步骤
    (1)选择菜单Data-Sort Cases
    (2)将主排序变量从左边的列表中选到Sort by框中,并在Sort Order框中选择按该变量的升序还是降序排序。
    (3)如果是多重排序,还要一次指定第二、第三排序变量及相应的排序规则。
    在这里插入图片描述

  • 变量计算:
    数据的转换处理是在原有数据的基础上,计算产生一些含有更丰富信息的新数据。例如根据职工的基本工资、失业保险、奖金等数据,计算实际月收入,这些新变量具有更直观更有效的特点。
    在这里插入图片描述

  • 数据选取
    数据选取就是根据分析的需要,从已收集到的大批量数据(总体)中按照一定的规则抽取部分数据(样本)参与分析的过程,通常也称为抽样。
    SPSS可根据指定的抽样方法从数据编辑窗口中选出部分样本以实现数据选取,这样后面的分析操作就只针对选出的数据,直到用户取消这种选取为止。
    在这里插入图片描述

  • 数据分组
    数据分组就是根据统计研究的需要,将数据按照某种标准重新划分为不同的组别。在数据分组的基础上进行的频数分析更能够概括和体现数据的分布特征。为适用于不同的统计分析需要,SPSS提供了以下几种数据分组方法:
    单变量值分组、组距分组

SPSS单变量值分组的基本操作步骤:
(1)选择菜单Transform-Automatic Recode
(2)将分组变量选择到Variable-New Name框中
(3)在New Name框后输入存放分组结果的变量名,并单击Add New Name按钮
(4)在Recode Starting from框中选择单变量值分组按升序还是按降序进行。Lowest value表示升序;Highest value表示降序。

Into Same Variables分组操作
(1)选择菜单Transform-Recode- Into Same Variables。
(2)在出现的窗口中将分组变量选择到Variables框中。
(3)单击Old and New Values按钮进行分组区间定义。
(4)在分组区间定义窗口中指定分组区间的下限和上限,并在New Value框中给出该区间对应的分组值。单击Add按钮确认分组区间并加到Odd→New框中。单击Change和Remove按钮来修改和删除分组区间。
(5)如果仅对符合一定条件的个案分组,则单击If按钮并输入SPSS条件表达式。否则,本步可略去。

Into Different Variables分组操作
(1)选择菜单Transform-Recode- Into Different Variables。
(2)在出现的窗口中将分组变量选择到Input Variable →Output Variable框中。
(3)在Output Variable后输入存放分组结果的变量名,并单击Change按钮确认。可以在Label后输入相应的变量名标签。
(4)单击Old and New Values按钮进行分组区间定义(方法与前面相似)。
(5)如果仅对符合一定条件的个案分组,则单击If按钮并输入SPSS条件表达式。否则,本步可略去。

  • 数据预处理的其他功能:转置、加权、数据拆分等。

SPSS的数据转置就是将数据编辑窗口中数据的行列互换。基本操作步骤如下:
(1)选择菜单Data-Transpose。
(2)指定数据转置后应保留哪些变量,将它们选入Variables框中,未被选中的变量将在新文件中缺失。
(3)指定转置后数据文件中各变量如何取名。

SPSS中指定加权变量的操作步骤是:
(1)选择菜单Data-Weight Cases。
(2)选择Weight Cases by选项,并将某变量作为加权变量选到Weight Cases by框中。
注意的是一旦指定了加权变量,那么以后的分析处理中加权是一直有效的,直到取消加权为止。取消加权应选择Do not weight cases选项。

  • 数据清洗
    在这里插入图片描述
  • 计数与分类汇总
    (1)选择菜单Data-Aggregate,出现如下所示的窗口:
    在这里插入图片描述
    (2)将分类变量选到Break Variable(s)框中
    (3)将汇总变量选到Summaries of Variable(s)框中
    (4)单击Function按钮,指定对汇总变量计算哪些统计量。SPSS默认计算均值。
    (5)指定将分类汇总结果保存到何处。有三种选择:
    第一,Add Aggregated Variables to working data file,表示将结果存放到当前数据编辑窗口中。
    第二,Create new data file,表示将结果存放到系统默认的名为aggr.sav的SPSS数据文件中,可以单击File按钮,重新指定文件名;
    第三,Replace working data file,表示用分类汇总结果覆盖数据编辑窗口中的数据。
    一般选择第二种方式,结果比较清晰。
    (6)单击Name&Label按钮,重新指定结果文件中的变量名或添加变量名标签。SPSS默认的变量名为原变量名后加_统计量名称(如a_mean)。
    (7)如果希望在结果文件中保存各分类组的个案数,则选择Number of case选项。于是,SPSS会在结果文件中自动生成一个默认名为N_Break的变量,可以修改该变量名。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章