数据挖掘概念复习

数据挖掘侧重应用,理论不是很难理解,快考试了,回顾一下常见的概念。

数据挖掘其实就是在一堆数据里找规律来预测。数据挖掘的过程主要有数据准备和数据挖掘,数据准备的过程很重要,甚至超过了挖掘,涉及到的概念有数据仓库、数据集成;数据挖掘主要解决四类问题:分类问题、聚类问题、关联问题、预测问题。

数据仓库其实也是一个数据库,常见的数据库侧重事务处理,数据仓库侧重分析决策。还有一个数据集市,它与数据仓库的区别是数据仓库是企业范围的,多个主题建模;数据集市是部门范围的,单个主题建模。

分类就是将对象和已存在的类对应起来;聚类就是物以类聚;分类和聚类的区别就是分类时类别已经存在,聚类时还没有类别。

分类的主要方法包括:决策树分类法、基于规则的分类法、神经网络、支持向量机、朴素贝叶斯分类法等。与决策树相关的算法有:CLS, ID3,C4.5,CART。ID3算法的核心是在决策树各节点选择属性时用信息增益作为属性的选择标准。

聚类方法有划分聚类方法(比如k-means)、层次聚类方法、基于密度的聚类方法、基于网格的聚类方法、基于模型的聚类方法。

联系是普遍存在的,关联问题就是发现联系,就像传说中的啤酒尿布。下面是从网上发现的关于关联分析不错的描述。

关联分析要解决的主要问题是:一群用户购买了很多产品之后,哪些产品同时购买的机率比较高?买了A产品的同时买哪个产品的机率比较高?可能是由于最初关联分析主要是在超市应用比较广泛,所以又叫“购物篮分析”。

如果在研究的问题中,一个用户购买的所有产品假定是同时一次性购买的,分析的重点就是所有用户购买的产品之间关联性;如果假定一个用户购买的产品的时间是不同的,而且分析时需要突出时间先后上的关联,如先买了什么,然后后买什么?那么这类问题称之为序列问题,它是关联问题的一种特殊情况。从某种意义上来说,序列问题也可以按照关联问题来操作。

关联分析有三个非常重要的概念,那就是“三度”:支持度、可信度、提升度。假设有10000个人购买了产品,其中购买A产品的人是1000个,购买B产品的人是2000个,AB同时购买的人是800个。支持度指的是关联的产品(假定A产品和B产品关联)同时购买的人数占总人数的比例,即800/10000=8%,有8%的用户同时购买了A和B两个产品;可信度指的是在购买了一个产品之后购买另外一个产品的可能性,例如购买了A产品之后购买B产品的可信度=800/1000=80%,即80%的用户在购买了A产品之后会购买B产品;提升度就是在购买A产品这个条件下购买B产品的可能性与没有这个条件下购买B产品的可能性之比,没有任何条件下购买B产品可能性=2000/10000=20%,那么提升度=80%/20%=4。

数据挖掘的典型算法:

*ID3,C4.5(决策树)

*Thek-means algorithm(聚类)

Supportvector machines(支持向量机)

*TheApriorialgorithm(关联规则)

TheEM algorithm(迭代优化算法)

* PageRank(网页等级/重要性算法)

* AdaBoost(迭代分类算法)

*kNN:k-nearestneighbor classification(基于事例的学习)

NaiveBayes(贝叶斯学习)

CART(增量学习算法)



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章