利用SPSS做数据分析②之数据处理2

接着上一篇数据处理的内容，我们今天一起来学习【数据合并、分组、标准化】：

1、数据合并（记录合并）

记录合并也叫纵向合并，是将具有共同的数据字段、结构，不同的数据表记录，合并到一个新的数据表中。

现在有两张表，一张“用户明细-男”，一张“用户明细-女”，他们拥有相同的数据字段、结构，只是记录信息不一样，为了能够进行整体的分析，我们需要将这两张表合并到一张数据表中。

01 打开“用户明细-男”文件，单击【数据】菜单——将鼠标移至【合并文件】——选择【添加个案】——弹出【添加个案】第一步对话框；
02 【添加个案】中——单击【浏览】按钮，浏览至存放数据的文件夹下，选择“用户明细-女”数据文件——单击【打开】返回至【添加个案】——单击【继续】按钮，弹出【添加个案】第二步对话框：
03 在【添加个案】中——确认【新的活动数据集中的变量】框中的变量是否正确——单击【确定】按钮，即可完成记录合并的操作。

注意：

如果两个数据集合并出现错误或失败，请先返回到两个数据集的【变量视图】窗口中检查：变量的数据类型、宽度、小数位数、值（标签）、列（宽度）、测量及角色这些变量属性设置是否一致，如有不一致，请将它们修改为一样的设置。

2、数据分组

数据分组：根据分析目的将数据进行等距或非等距分组，这个过程也称为数据离散化，一般用于查看分布，如消费分布、收入分布、年龄分布等。

其中用户绘制分布图X轴的分组变量，是不能改变其顺序的，一般按分组区间大小进行排列，这样才能观察研究数据的分布规律。

2.1 可视分箱-数据分组功能

Excel中我们使用Vlookup函数进行匹配功能进行数据分组操作；
在SPSS 中数据分组不通过函数操作，有专门的数据分组功能——“可视分箱”。

我们以：用户明细数据为例了解一下用户年龄分布的特征，现需将“年龄”变量进行分布操作：

01 打开用户明细，单击【转换】-选择【可视分箱】——弹出【可视分箱】第一步对话框：
02 在【可视分箱】第一步对话框中，将“年龄”变量移至【要分箱的变量】框中，单击【继续】按钮，弹出【可视分箱】第二步对话框：
03 在【可视分箱】第二步对话框中，在【分箱化变量】栏中输入“年龄段”——单击【生成分割点】按钮——弹出【生成分割点】对话框：

在【第一个分割点的位置】栏中输入：20，在【分隔点数】栏中输入：4，在【宽度】栏中输入：5——单击【应用】按钮，返回【可视分箱】第二步对话框：

为什么要设置成：20、4、5呢？
根据年龄分布预览图，我们可以观察到最小值是16，最大值是78；年龄主要分布在20-35之间，我们可以把第一个分割点定位20，组距为5，这样20-35之间按组距5进行分组可以得到3个组，再加上前后2各组，就是5个组，4个分割点，分割点参数大致就是这样确定的，没有绝对的标准，只要能达到解决问题的目的即可。

04 在【可视分箱】第二步对话框中，单击【生成标签】按钮——将生成对应的区间范围标签——单击【确定】按钮，即可得到“年龄段”变量。

我们这个例子进行的是等距分组，那么，如果是不等距分组，该如何操作呢？
如果需要进行不等距分组，则可以在【可视分箱】第二步对话框下方的【网格】中，直接填入自定义的分割点，例如分别填入：20、25、35，第四个“高”会自动生成，然后单击【生成标签】按钮，就可以生成对应的区间范围标签了：

2.2 重新编码

对于不等距分组的操作，我们可以采用另外一种方法：重新编码为不同变量。

重新编码可以把一个变量的数值按照指定要求赋予新的数值，也可以把连续变量重新编码成离散变量。

例如：把年龄重新编码为年龄段。

-01 打开用户明细数据文件——单击【转换】菜单——选择【重新编码为不同变量】——弹出【重新编码为不同变量】对话框：

在【重新编码为不同变量】对话框中——将年龄移至【输入变量->输出变量】框中，在右边的【输出变量】的【名称】栏中输入“年龄段3”：

单击【旧值和新值】按钮——弹出【重新编码为不同变量：旧值和新值】对话框：

在【重新编码为不同变量：旧值和新值】对话框中，在左边【旧值】框中选择【范围】项——分别依次输入每个分组的范围临界值——同时需要在右边【新值】框的【值】栏中输入对应的新值——并且单击【添加】按钮——将旧值和新值对应关系加入【旧->新】框中——对应关系输入完毕后，如图：
单击【继续】按钮——返回【重新编码为不同变量】对话框：

单击【变化量】按钮——使刚才输入的对应关系生效——单击【确定】——完成“年龄段3”变量操作。

数据标准化，是将数据按比例缩放，使之落到一个特定区间。
数据标准化是为了消除量纲（单位）的影响，方便进行比较分析。
常用到的数据标准化方法有：0-1标准化、Z标准化。

3.1 0-1标准化

0-1标准化也称为离散标准化，是对原始数据进行线性变换，是结果落到【0,1】区间。
0-1标准化还有个好处，就是很方便的做到十分制、百分制的换算，只需乘上10或100即可，其他分制同理：

计算公式：
x* = x-min / max-min
注：max是变量的最大值，min为变量的最小值。

例如：我们根据用户明细数据为例进行介绍，对用户的年龄进行
0-1标准化计算处理，得到一个“标准化值”变量。

01 打开用户明细数据文件——单击【转换】菜单——选择【计算变量】——弹出【计算变量】对话框：
02 在【计算变量】对话框中——在【数字表达式】框中输入公式“（年龄-16）/ （78-16）”——完成公式的编写：
03 在【目标变量】框中，输入变量名称“标准化值”——在【类型与标签】功能中设置类型为“数值”——单击【确定】按钮——返回【计算变量】对话框——单击【确定】按钮——新增一个“标准化值”：

如果没有之前的数据分组可视化操作，那么这个最大值、最小值如何得到？
答：这个可以通过“描述”、“探索”等分析功能得到的。