利用SPSS做数据分析②之数据处理1

SPSS数据处理有六个步骤，分别是：

数据导入

数据清洗

数据抽取

数据合并

数据分组

数据标准化

数据处理是根据数据分析的目的，将收集到的数据，用适当的处理方法进行加工、整理，形成适合数据分析的要求样式，它是数据分析前必不可少的工作，并且在整个数据分析工作量中占据了大部分比例。

我们先来学习前三个步骤：数据导入、数据清洗、数据抽取

先来了解下数据变量是什么？
在数据库中，我们将数据变量称为字段，而在统计学中我们称之为变量。

常用的数据类型：

字符型数据、数值型数据、日期型数据

字符型数据

文本数据，有字符串组成，不能进行算数运算的文本数据类型，包括中文字符、英文字符、数字字符（非数值型）等字符。
字符型数据是一种分类数据。

数值型数据

自然数或度量单位进行计量的数值数据。
特殊的分类数据。

日期型数据

表示日期或时间数据，它可以进行算数运算，所以它是一种特殊的数值型数据。
日期型数据主要应用在时间序列分析中。

变量尺度：

在统计学中，按照对事物描述的精确程度，将采用的测量尺度从低到高分为4个层次：定类尺度、定序尺度、定距尺度和定比尺度。

定类尺度：对事物类别或属性的一种测度。

特点：值只能代表事物的类别和属性，不能比较各类别之间的大小。
例如：性别、职业…
SPPS中，使用" 名义（N）"来表示定类尺度。
注意：使用定类尺度对事物进行分类时，一定要符合相互独立，完全穷尽原则，也就是麦肯锡的经典原则——MECE原则。相互独立意味着对事物的分类在同一纬度上并且有明确区分、不可重叠的；完全穷尽则意味着全面、周密，对事物的分类没有遗漏。

定序尺度：对事物之间等级或者顺序的一种测度。

计算结果只能排序，不能进行算术运算。
例如：学历、职级…
在SPSS 中，使用"序号（O）"来表示定序尺度。

定距尺度：对事物次序之间间距的一种测度，只可进行加减运算，不可进行乘除运算。

不仅能够对事物进行排序，还能精确计算次序之间的差距是多少。
例如：温度、时间…

定比尺度：测量两个测量值之间比值的一种测度。

加减乘除运算。
例如：收入、用户…

定比尺度和定距尺度最大的区别：

定比尺度——有固定的绝对“0”值
定距尺度——没有固定的绝对“0”值
定距变量中“0”不表示没有，只是测量值；定比变量中“0”表示没有。
定距与定比——SPPS中统称为“度量（S）”。

1、数据导入

常用的数据文件有两种：EXCEL数据文件和txt数据文件。

1.1 Excel数据导入

步骤：
文件——打开——数据——打开数据——选择EXCEL数据文件；
SPSS 会根据实际情况设置好相关参数，我们只需确认参数是否设置正确即可，不正确，修改相应参数苏设置，确认无误后，点击确定按钮。

单击文件——选择保存或另存为——将数据另存为——SPSS默认保存格式：*.sav——确定即可。

1.1 txt 数据导入

这里插一句：当你在导入文本文件时显示在第一步就显示乱码的话是你的因为你的编码格式没有选对（反正我是这样子的），如果乱码就选择本地编码即可。

txt 文本导入其实和EXCEL数据文件导入的方式是类似的。
文件——打开——数据——打开数据——选择文本数据，更改文件类型——打开；

①文本导入向导——各变量之间用逗号隔开——下一步；
②文本导入向导——设置变量的安排方式和变量名称（变量的安排方式：各变量之间是如何分隔的，以逗号、制表符等分隔符号分隔的，还是以每个变量的宽度分隔的）；
③文本导入向导——进行个案设置（数据记录）——均保持默认即可——下一步；
④文本导入向导——SPSS根据导入数据特点——自动勾选逗号分隔符——下一步；
⑤文本导入向导——SPSS根据导入数据特点——自动设置每个变量数据格式——确认是否设置正确（特别是日期型变量）——下一步；
⑥文本导入向导——如果不需要保存刚才设置过的格式或者获得导入过程的语法——直接单击（完成）按钮——就会成功导入SPSS中。

2、数据清洗

数据清洗：
将重复的数据筛选清除，将损失的数据补充完整，将错误的数据纠正或删除。
Excel中有删除重复项是的功能，可以直接删除重复的数据记录。
SPSS没有提供类似于Excel删除重复项的功能，但我们可以分步操作：

先将重复记录找出并标记；
根据是否重复标记排序，将重复记录排在一起；
删除

①打开sav数据文件——数据——标识重复个案；

②在标识重复个案中——将所有变量都放入【定义匹配个案的依据】框中——其他选项若无特殊需求，保持默认即可；

③这时就生成一个重复数据记录标识变量“最后一个基本个案”，0代表重复个案，1代表唯一或基本主个案；

④选中“最后一个基本个案”变量——右键选择【升序排列】项——将“最后一个基本个案”变量值为0（重复）的个案都排在前面了；

⑤选中“最后一个基本个案”——变量值为0（重复）的个案——单击右键——选择【清除】项——成功删除重复的个案。

3、数据抽取

数据抽取，也称为数据拆分，是指保留、抽取原数据表中的某些字段、记录的部分信息，形成一个新字段、新纪录。

我们学习：字段拆分、随机抽样 两种方法。

3.1 字段拆分

在Excel中我们经常使用Right、Left、Mid函数进行相关字段的抽取、拆分，在SPSS中字段的拆分操作与Excel中的字段拆分操作类似，主要使用Substr函数进行字段拆分操作，跟Excel的Mid函数用法是一致的。

Substr（字符串，提取的起始位置，提取的字符个数）

现在我们用Substr函数对数据中“身份证号码”变量进行出生年份、月份、日进行抽取：

打开数据文件——点击转换——选择计算变量；

在计算变量中——选择【函数组】框中“字符串”类——【函数和特殊变量】框中双击“Char.Substr(3)”函数——这时Char.Substr(3)函数就被移入到【数字表达式】中——将表达式修改为“CHAR.SUBSTR(身份证号码,7,4)”——这样就完成了公式的编写；
在目标变量中——输入变量名称：年份——【类型于标签】功能中设置类型为：字符串——确定——这样就新增了一个“年份”变量；

3.2 随机抽样

随机抽样，是按照随机的原则，也就是保证总体中每个单位都有同等机会被抽中的原则，进行样本抽取的一种方法。
随机抽样方法主要有：简单随机抽样、分层抽样、系统抽样等。

在SPSS 中，主要使用“选择个案”中的随机抽样功能来实现。

数据文件——数据——选择个案：随机抽样；

选择个案——选择——随机个案样本——单击【样本】按钮；

【选择个案：随机抽样】——基于近似百分比或精确的个案数来随机抽取样本——我们这个例子选择：采用近似百分比的方式抽取——【大约】后输入：20——表示定义随机抽取大约20%的样本量——继续——返回【选择个案】——确定。

这样我们就完成了随机抽样，大约20%的样本量。
如图，SPSS在数据表最后一列新增filter_$变量，0表示记录未被选中，1表示记录被选中抽取；
同时，对没有选中抽取的记录号使用斜线 " / " 进行标记，在不关闭SPSS的情况下，后续的其他数据操作都仅对选中抽取的记录进行分析。

如果希望将抽样得到的数据单独存为一份新的数据文件，用于其他数据分析，则可以在第3步返回的【选择个案】对话框的【输出】框中，选择【将选定个案复制到新数据集】项，并定义输入一个数据集名称，单击【确定】按钮后，抽样得到的数据将以一个新的SPSS数据窗口存放，最后将数据保存即可得到一份新的数据文件。

补充：

数据处理-未完待续~~

利用SPSS做数据分析②之数据处理1

常用的数据类型：

字符型数据

数值型数据

日期型数据

变量尺度：

1、数据导入

1.1 Excel数据导入

1.1 txt 数据导入

2、数据清洗

3、数据抽取

3.1 字段拆分

3.2 随机抽样

《日本蜡烛图》读书笔记 & 技术分析回测

Python多线程编程深度探索：从入门到实战

《期货-市场技术分析》读书笔记

mongodb处理json数据很好

顶级 Javaer 都在用的 20 个类库，真香！

[转帖]cpupower

google浏览器插件开发

35K*14 薪，入职了！这公司只要不裁员，我能一直呆下去！

利用SPSS做數據分析②之數據處理2

利用SPSS做數據分析②之數據處理1

作爲數據分析師一定要知道的推斷分析（參數估計）

敲黑板啦！開窗函數你學會了嗎

HiveSQL例題-常用函數與基礎語法講解

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結