数据预处理（方法介绍）

原創

2020-06-27 03:45

常见的数据预处理方法有：数据清洗、数据集成、数据变换和数据归约。

1. 数据清洗：数据清洗的目的不只是要消除错误、冗余和数据噪音，还要能将按不同的、不兼容的规则所得的各种数据集一致起来。

2. 数据集成：将多个数据源中的数据合并，并存放到一个一致的数据存储（如数据仓库）中。这些数据源可能包括多个数据库、数据立方体或一般文件。

3. 数据变换：找到数据的特征表示，用维度变换来减少有效变量的数目或找到数据的不变式，包括规格化、规约、切换和投影等操作。

4. 数据归约：是在对发现任务和数据本身内容理解的基础上，寻找依赖于发现目标的表达数据的有用特征，以缩减数据模型，从而在尽可能保持数据原貌的前提下最大限度的精简数据量，主要有两个途径：属性选择和数据抽样，分别针对数据库中的属性和记录。

一数据清洗

1 缺失值处理

1.1 删除法

在不影响数据结构的情况下，删除法是最简单的将缺失值转变为完整数据集的方法。根据数据处理的不同角度，删除法可分为以下4种：

（1）删除观测样本；

（2）删除变量：当某个变量缺失值较多且对研究目标影响不大时，可以将整个变量整体删除；

（3）使用完整原始数据分析：当数据存在较多缺失而其原始数据完整时，可以使用原始数据替代现有数据进行分析；

（4）改变权重：当删除缺失数据会改变数据结构时，通过对完整数据按照不同的权重进行加工，可以降低删除数据带来的偏差。

1.2 插补法

在条件允许的情况下，找到缺失值的替代值进行插补，尽可能还原真实数据是更好的方法。常见的方法有均值插补、回归插补、二阶插补、热平台、冷平台等单一变量插补。

（1）均值法是通过计算缺失值所在变量所有非缺失观测值的均值，使用均值来代替缺失值的插补方法。

（2）均值法不能利用相关变量信息，因此会存在一定偏差，而回归模型是将需要插补变量作为因变量，其他相关变量作为自变量，通过建立回归模型预测出因变量的值对缺失变量进行插补。

（3）热平台插补是指在非缺失数据集中找到一个与缺失值所在样本相似的样本（匹配样本），利用其中的观测值对缺失值进行插补。

（4）在实际操作中，尤其当变量数量很多时，通常很难找到与需要插补样本完全相同的样本，此时可以按照某些变量将数据分层，在层中对缺失值使用均值插补，即采取冷平台插补法。

2 噪声数据处理

噪声是一个测量变量中的随机错误和偏差，包括错误值或偏离期望的孤立点值。

噪声检查中比较常见的方法：（1）通过寻找数据集中与其他观测值及均值差距最大的点作为异常值；（2）聚类方法检测，将类似的取值组织成“群”或“簇”，落在“簇”集合之外的值被视为离群点。

在进行噪声检查后，通常采用分箱、回归、计算机检查和人工检查结合等方法“光滑”数据，去掉数据中的噪声。

二数据集成

数据集成中的两个主要问题是：（1）如何对多个数据集进行匹配，当一个数据库的属性与另一个数据库的属性匹配时，必须注意数据的结构；（2）数据冗余。两个数据集有两个命名不同但实际数据相同的属性，那么其中一个属性就是冗余的。

三数据变换

数据变换策略主要包括以下几种：

（1）光滑：去掉噪声；

（2）属性构造：由给定的属性构造出新属性并添加到数据集中。例如，通过“销售额”和“成本”构造出“利润”，只需要对相应属性数据进行简单变换即可；

（3）聚集：对数据进行汇总。比如通过日销售数据，计算月和年的销售数据；

（4）规范化：把数据单按比例缩放，比如数据标准化处理；

（5）离散化：将定量数据向定性数据转化。比如一系列连续数据，可用标签进行替换（0,1）；

四数据归约

数据归约通常用维归约、数值归约方法实现。维归约指通过减少属性的方式压缩数据量，通过移除不相关的属性，可以提高模型效率。常见的维归约方法有：分类树、随机森林通过对分类效果的影响大小筛选属性；小波变换、主成分分析通过把原数据变换或投影到较小的空间来降低维数。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.