数据挖掘学习指引

原創

2020-07-07 04:51

对于当前热门的大数据、云计算等技术，被百度、阿里等国内互联网巨头炒的很火，数据挖掘作为一门很实用的技术，在商业管理、市场分析、科学计算等大数据方面发挥着大作用。

数据挖掘技术也变得很火，why？

1、数据挖掘作为市场营销的一个手段，可以将潜在的商业信息捕获。指商业公司根据客户以前的消费记录，预测消费者的喜好、兴趣，可以开展定向营销，以促进双方赢利。典型的尿片+beer组合就不说了；例如，银行系统可以根据客户突然的大范围消费，可以预测该客户可能买房、结婚等，进而向楼盘、婚庆所介绍生意等。

2、数据挖掘可以为决策者提供知识。数据很大，知识很少；在数据库中保存的巨大数据，如何利用这些数据，寻找客户消费、分类等潜在的规律。这个优势在电信、银行、超市等行业有很多体现。例如，某国电信公司将10年的国民打电话数据发给研究机构，以制定出合适的电话收费方案和管理政策。

随着电子商务、股票系统、信用卡交易等商业范畴内的大数据兴起，数据挖掘在发现新知识以提供定制的客户关系管理（CRM）。

简单介绍了数据挖掘的几个实际应用案例后，什么是数据挖掘？

data mining，是指从巨大的数据集中发掘有用的、新奇的、可理解的模型。data mining通过数据库、机器学习（贝叶斯分类器、决策树等）、数理统计、神经网络等多学科的理论、规则来实现的。

掌握数据挖掘，需要了解数据挖掘的几种模型和数据库类型。

1、关联规则：从数据库中找到高频出现的属性组或项目组。例如，beer和尿布，badminton 和 battledore等。

2、分类器：从数据训练建立分类器，输入新数据进行分类。例如，决策树等，在信用卡评估中银行根据记录的客户信用卡交易、借贷偿还等数据评估信用等级。

3、聚类（clustering）：将数据集分组，使得组内元素间有很高的相似性，组间无相似性。例如，电商通过客户浏览相似商品判断客户的分类，通过判断生物特征进行物种分类。

4、顺序挖掘：根据很多个序列，找到高频发生的子序列。例如，商家卖给你一台电脑，可能9个月后会推荐给你一台打印机或者路由器。

5、异常检测：给出n个点，发现某个点k的值超过范围，k点具有异常性。

数据挖掘，前提是大数据，从海量数据中发现模型和知识，所以模型建立的基础必须基于数据。而各种各样的数据类型，即为数据挖掘带来了发展空间又带来了挑战。现在介绍数据挖掘中常见的几种数据类型：

1、关系型数据库中的链表。题外话，关系型数据管理系统能简单提供数据查询，但是并不能带来更多的知识。

2、数据仓库。数据仓库是将数据库中的数据进行清理、集成，为数据挖掘建立模型提供源数据。

3、空间数据。例如遥感卫星采集的地图信息、集成电路的pcb设计与检测等

4、图，多媒体，文本数据库等。

数据挖掘虽然发展很成熟，但是了解这门技术最新的发展方向和遇到的挑战、改进的地方也很有必要。

1、数据挖掘高性能、高移植性的算法发现。经典算法的使用难道几十年都不变？

2、与用户的交互性改进。数据库技术有专门的数据查询语言SQL，数据挖掘能发展出一门语言吗？

3、数据挖掘结果的可视化。

更多的专业技术的探讨和研究可以参考数据挖掘的国际会议与期刊，例如 IEEE ICDM，PKDD，ACM data mining and knowledge discovery。

数据仓库和OLAP技术

数据仓库是数据挖掘的处理对象，在做数据分析时，需要从海量的数据库中汇合数据，集成后变成数据仓库，然后利用数学分析和建立模型来分析数据，然后得到知识应用于决策分析。所以数据仓库具有集成、面向主题的特征，区别于面向事务的数据库；数据库考虑的是事务流处理，建立一个表，每个属性代表着解决事物的具体意义，数据仓库是集成不同源的数据库，通过模型分析，找到具有某种内在联系的规律或者分类。

OLTP和OLAP是分别针对DBMS和DM提出来的在线处理，OLTP实时处理事务，例如顾客注册、图书登记、商品上架等；OLAP则是利用模型处理过去某段时间里的数据集。

前面讲了这么多数据仓库和数据库的区别与联系，怎么建立数据仓库呢？下面要介绍的是从表和电子表格中建立数据立方块（data cube）。

data cube，是数据仓库中的多维数据模型，方便做统计与分析。不同的维代表着不同的item，可以roll up 和drill down来累加某个维度上的数据。

数据仓库的概念模型（conceptual modeling），主要有三种：star schema、snowflake schema、fact constellation，也就是星型模型、雪花模型、星座模型，这些模型的建立就像各自的外在表现一样，星型模型呈中心发散状，雪花模型呈末端发散状，星座模型呈多个雪花状相互联系的状态。重要的是数据仓库不仅包含schema中每个维度的item，还包含对这些维的操作（measures）。

数据预处理，是构建数据仓库的重要环节，包含数据清理、数据变换、数据降维等。

数据清理，主要是指某些数据无意义、数据缺失、挑选某些属性关联的工作；数据变换，主要指标准化数据，归一化等；数据降维，指某些维数相关的数据可以消去等。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

数据挖掘学习指引

985 硕士程序员，空窗 4 个月没有 Offer！

营销系统黑名单优化：位图的应用解析

我真的从测试转成了开发......

nginx添加相应配置，通过浏览器访问或curl时返回客户端对应公网IP

[oeasy]python020在游戏中体验数值自由_勇闯地下城_终端文字游戏

为何我建议你学会抄代码

抖音面试：说说延迟任务的调度算法？

解密游戏神作

导入地址表钩取技术解析

盛大发布 | Zabbix 7.0 LTS--性能与扩展的卓越融合

818工程師職業的看法與體會。

嵌入式系統開發的架構和應用

數據挖掘學習指引

C、C++、Java的基礎常識介紹

淺談C++和JAVA的區別

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結