《数据挖掘概念与技术》读书笔记

最近在学习数据挖掘和数据分析相关内容,在很多地方有很多朋友都推荐该书,遂购书一本,以作学习之用,把读书过程中一些习得记录在此,以备查阅。

第一章 引论

1.1 为什么进行数据挖掘

现在的我们生活在一个信息时代,每天都有各种各样大量的数据产生并保存到计算机网络和各种存储设备中,然而如何从这些海量数据中发现有价值信息,并使之转换为有组织的知识,这就是数据挖掘产生的原因。

1.1.2 数据挖掘是信息技术的进化

随着最初的数据库技术不断的发展:数据收集和数据库创建数据管理高级数据分析

数据库管理系统建立以后,数据库技术就转向高级数据库系统、支持高级数据分析的数据仓库和数据挖掘、基于Web的数据库

数据仓库:一种多个异构数据源在单个站点以统一的模式组织的存储,以支持管理决策。包括数据清理、数据集成和联机分析处理(OLAP(On-Line Analytical Processing))。

1.2 什么是数据挖掘

数据挖掘是从大量数据中挖掘有趣模式和知识的过程,应当更正确地命名为“从数据中挖掘知识”,很多人把其视为数据中的知识发现(KDD) 的同义词。

知识发现由以下步骤的迭代序列组成:

-(1) 数据清理 (消除噪声)
-(2) 数据集成 (多种数据源可以组合在一起)
-(3) 数据选择 (从数据库中提取与分析任务相关的数据)
-(4) 数据变换 (通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式)
-(5) 数据挖掘 (基本步骤,使用智能方法提取数据模式)
-(6) 模式评估 (根据某种兴趣度度量,识别代表知识的真正有趣的模式)
-(7) 知识表示 (使用可视化和知识表示技术,向用户提供挖掘的知识)

1.3 可以挖掘什么类型的数据

1.3.1 数据库系统

数据库系统,也称为数据库管理系统(DBMS),由一组内部相关的数据(称为数据库)和一组管理和存取数据的软件程序组成。

关系数据库是表的汇集,每个表被赋予一个唯一的名字。

1.3.2 数据仓库

数据仓库是一个从多个数据源收集的数据存储库,存放在一致的模式下,并且通常组留在单个站点上。通常,数据仓库用称作为数据立方体(data cube)的多维数据结构建模。其中,一个维对应于模式中的一个或一组属性,而每个单元存放某种聚集度量值。

多维数据挖掘(又称探索式多维数据挖掘以OLAP风格在多维空间进行数据挖掘)

1.3.3 事务数据

事务数据库的每个记录代表一个事务,如顾客的一次购物、一个航班订票,或一个用户的网页点击。

1.4 可以挖掘什么类型的模式

数据挖掘功能:特征化与区分、频繁模式、关联和相关性挖掘,分类与回归,聚类分析,离群点分析。

分为描述性(descriptive)预测性(predictive)

描述性挖掘任务刻画目标数据中数据的一般性质
预测性挖掘任务在当前数据上进行归纳,以便做出预测。

1.4.1 类/概念描述:特征化与区分

类/概念描述可以通过下述方法得到:
(1) 数据特征化,一般地汇总所研究类(通常称为目标类)的数据
(2) 数据区分,将目标类与一个或多个可比较类(通常称为对比类)进行比较
(3) 数据特征化和区分

数据特征化(data characterization)是目标类数据的一般特性或特征的汇总。数据特征化的输出可以用多种形式提供,如饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。结果描述也可以用广义关系或规则(称做特征规则)形式提供。

数据区分(data discrimination)是将目标类数据对象的一般特性与一个或多个对壁垒对象的一般特性进行比较。

用规则表示的区分描述称为区分规则(discriminant rule)

1.4.2 挖掘频繁模式、关联和相关性

频繁模式(frequent pattern) 是在数据中频繁出现的模式。包含频繁项集、频繁子系列(又称序列模式)和频繁子结构。频繁项集挖掘是频繁模式挖掘的基础。

1.4.3 用于预测分析的分类与回归

分类(classification) 是这样的过程,它找出描述和区分数据类或概念的模型,以便能够使用模型预测类标号未知的对象的类标号。

分类预测类型(离散的、无序的)标号,而回归建立连续值函数模型。

回归分析(regression analysis)是一种最常使用的数值预测的统计学方法。回归也包含基于可用数据的分布趋势识别。

相关分析(relevance analysis)可能需要在分类和回归之前进行,它试图识别与分类和回归过程显著相关的属性。

1.4.4 聚类分析

聚类(clustering)分析数据对象,而不考虑类标号。

对象根据最大化类内相似性、最小化类间相似性的原则进行聚类或分组

1.4.5 离群点分析

离群点(outlier):数据集中可能包含一些数据对象,它们与数据的一般行为或模型不一致,这些数据对象被称为离群点。

离群点数据分析称作离群点分析异常挖掘

1.4.6 所有的模式都是有趣的吗

如果一个模式是有趣的(interesting),它可能符合以下几点:

  • (1) 易于被人理解;
  • (2) 在某种确信度上,对于新的或检验数据是有效的
  • (3) 是潜在有用的
  • (4) 是新颖的

有趣的模式代表知识

模式兴趣度的客观度量
- (1) 规则的支持度(support):事务数据库中满足规则的事务所占的百分比
- (2) 置信度(confidence):它评估所发现的规则的确信程度
- (3) 其他兴趣度度量包括分类(IF-THEN)规则的准确率覆盖率

主观兴趣度度量基于用户对数据的信念。如果它们是出乎意料的(与用户的信念相矛盾),或者提供用户可以采取行动的至关重要的信息。在后一种情况下,这样的模式称为可行动的(actionable)

1.5 使用什么技术

数据挖掘吸纳了诸如统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、高性能计算和许多应用领域的大量技术。

1.5.1 统计学

统计学研究数据的收集、分析、解释和表示。

统计模型是一组数学函数,它们用随机变量及其概率分布刻画目标类对象的行为。统计模型广泛用于对数据和数据类建模。

统计学研究开发一些使用数据和统计模型进行预测和预报的工具。

推理统计学(或预测统计学)用某种方式对数据建模,解释观测中的随机性和确定性,并用来提取关于所考察的过程或总体的结论。

统计学方法也可以用来验证数据挖掘结果。
统计假设检验(有时称为证实数据分析)使用实验数据进行统计判决。

1.5.2 机器学习

机器学习考察计算机如何基于数据学习(或提高它们的性能)。其主要研究领域之一是:计算机程序基于数据自动地学习识别复杂的模式,并做出智能的决断。

几个概念:

  • 监督学习(supervised learning) 基本上是分类的同义词
  • 无监督学习(unsupervised learning) 基本上是聚类的同义词
  • 半监督学习(semi-supervised learning)是一类机器学习技术,在学习模式时,它使用标记和未标记的实例
  • 主动学习(active learning)是一种机器学习方法,它让用户在学习过程中扮演主动角色

1.5.3 数据库系统与数据仓库

数据库系统研究 关注为单位和最终用户创建、维护和使用数据库。
数据仓库集成来自多种数据源和各个时间段的数据。

1.5.4 信息检索

信息(IR) 检索是搜索文档或文档中信息的科学。
文档的语言模型是生成文档中词的包的概率密度函数。
一个文本文档集的主题可以用词汇表上的概率分布建模,称为主题模型

1.6 面向什么类型的应用

1.6.1 商务智能

商务智能(BI)技术提供商务运作的历史、现状和预测视图。
数据挖掘是商务智能的核心。

1.6.2 Web搜索引擎

web搜索引擎本质上是大型数据挖掘应用。

1.7 数据挖掘的主要问题

包含一下五个方面:挖掘方法、用户交互、有效性与可伸缩性、数据类型的多样性、数据挖掘与社会。

1.7.1 挖掘方法

挖掘方法应该考虑诸如数据的不确定性、噪声和不完全性等问题。

数据挖掘方法的考察点:

  • 挖掘各种新的知识类型:数据挖掘广泛涵盖数据分析和知识发现的任务,从数据特征化与区分到关联与相关性分析、分类、回归、聚类、离群点分析、序列分析以及趋势和演变分析。
  • 挖掘多维空间中的知识:在大型数据集中搜索知识时,我们可能探索多维空间中的数据。被称为(探索式)多维数据挖掘。
  • 数据挖掘–跨学科的努力:通过集成来自多学科的新方法可以显著增强数据挖掘的能力。
  • 提升网络环境下的发现能力: 大部分对象之间驻留在链接或互连的环境中,无论是Web、数据库关系、文件还是文档。
  • 处理不确定性、噪声或不完全数据:数据常常包含噪声、错误、异常、不确定性,或者是不完全的。数据清理、数据预处理、离群点检测与删除以及不确定性推理都是需要与数据挖掘过程集成的技术。
  • 模式评估和模式或约束指导的挖掘:数据挖掘过程产生的所有模式并非都是有趣的。认定哪些模式有趣可能因用户而异。因此,需要一种技术来评估基于主观度量所发现的模式的兴趣度。

1.7.2 用户界面

  • 交互挖掘
  • 结合背景知识
  • 特定的数据挖掘和数据挖掘查询语言
  • 数据挖掘结果的表示和可视化

1.7.3 有效性和可伸缩性

  • 数据挖掘算法的有效性和可伸缩性
  • 并行、分布式和增量挖掘方法

1.7.4 数据库类型的多样性

  • 处理复杂的数据类型
  • 挖掘动态的、网络的、全球的数据库

1.7.5 数据挖掘与社会

  • 数据挖掘的社会影响
  • 保护隐私的数据挖掘
  • 无形的数据挖掘
发布了207 篇原创文章 · 获赞 1656 · 访问量 216万+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章