Python数据分析与挖掘实战学习笔记(1)

Chapter1 数据挖掘基础

什么是数据挖掘

 从数据中淘金,从大量数据(包括文本)中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程,就是数据挖掘。

数据挖掘的基本过程

定义挖掘目标

 针对具体的数据挖掘应用需求,首先要明确本次的挖掘目标是什么?系统完成后能达到什么样的效果?因此,我们必须分析应用领域,包括应用中的各种知识和应用目标,了解相关领域的情况,熟悉背景知识,弄清用户需求。

数据取样

 在明确了需要进行挖掘的目标以后,接下来就需要从业务系统中抽取出一个与挖掘目标相关的样本数据子集。抽取数据的标准,一是相关性,二是可靠性,三是有效性,而不是动用全部的企业数据。通过对数据样本的精选,不仅能减少数据处理量,节省系统资源,还可以使我们想要寻找的规律性更加凸显出来。
 进行数据取样,一定要严把质量关。在任何时候都不能忽视数据的质量,即使是从一个数据仓库中进行数据取样,也不要忘记检查其质量。因为数据挖掘是要探索企业运作的内在规律性,原始数据有误,就很难从中探索规律性。若真的从中还探索出来了什么“规律性”,再依此下去,则很可能会造成误导。若从正在运行的系统中进行数据取样,更要注意数据的完整性和有效性。

数据探索

 前面所述的数据取样,多少是带着人们对如何实现数据挖掘目标的先验认识进行操作的。当我们拿到了一个样本数据集后,它是否达到我们原来设想的要求;样本中有没有什么明显的规律和趋势;有没有出现从未设想过的数据状态;属性之间有什么相关性;它们可分成怎样一些类别。。。。。,这都是要探索的内容。
 对所抽取的样本数据进行探索、审核和必要的加工处理,是保证最终的挖掘模型的质量所必需的。可以说,挖掘模型的质量不会超过抽取样本的质量。数据探索和预处理的目的是为了保证样本数据的质量,从而为保证模型质量打下基础。

数据预处理

 当采集数据维度过大时,如何进行降维处理、缺失值处理等都是数据预处理要解决的问题。
 由于采样数据中常常包含许多含有噪声、不完整,甚至不一致的数据,对数据挖掘所涉及的数据对象必须进行预处理。
 针对采集的餐饮数据,数据预处理主要包括:数据筛选、数据质量变换、缺失值处理、坏数据处理、数据标准化、主成分分析、属性选择、数据规约等,有关介绍详见第3章。(后面会介绍)

模型评价

 从构建好的模型中会得到许多的分析结果,模型评价的目的之一就是从这些模型中自动找出一个最好的模型,另外就是要根据业务对模型进行解释和应用。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章