[数据分析学习笔记] 数据预处理

原創

2020-06-21 07:35

数据预处理一方面是要提高数据的质量，另一方面是要让数据更好地适应特定的挖掘技术或工具。

为什么需要进行数据预处理？

包含在数据源中的大部分原始数据未被处理，它们是不完整的数据或者含有不符合数据分析要求的数据，为此需要进行数据预处理。这些数据中可能包含（不符合要求的数据）：

过时或冗余字段

缺失值

离群值

其形式不适合数据分析模型的数据

与分析策略或常识不一致的值

离群值是偏离了其他值得趋势的极端值。识别离群值非常重要，因为它们有可能代表数据输入错误。此外，某些统计方法对离群值是非常敏感的，即使离群值是有效的数据而不是错误的数据，也可能对分析产生不可靠的结果。

识别离群值的图形方法是校验变量的直方图。

识别离群值的数值方法：

使用Z-score

均值和标准差

IQR

数据预处理的主要内容包括：数据清洗、数据集成、数据变换和数据规约。

知识点总结如下图所示：

数据清洗：主要是删除原始数据集中的无关数据、重复数据，平滑噪声数据，筛选掉与挖掘主题无关的数据，处理缺失值、异常值等。

数据集成：将多个数据源合并存放在一个一致的数据存储（如：数据仓库）中的过程。

数据变换：对数据进行规范化处理，将数据转换成“适当的”形式，以适用于挖掘任务及算法的需要。

数据规约：在大数据集上进行复杂的数据分析和挖掘需要很长的时间，数据规约产生更小但保持原数据完整性的新数据集。在规约后的数据集上进行分析和挖掘将更有效率。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.