数据库系统原理第八章

第八章 数据管理技术的发展

**大家想一起学习交流的可以加群,WX:MrCroods。**

第一节 数据库技术发展概述

数据模型是数据库系统的核心和基础。三个发展阶段:
第一代的网状、层次数据库系统,第二代的关系数据库系统,以及新一代的数据库系统。
一、第一代数据库系统

第一代数据库系统的数据模型:层次模型和网状模型。

(1)、层次模型数据库管理系统IMS。
(2)、DBTG所提议的方法(该方法是20世纪60年代末70年代初提出)是基于网状结构的,是网状模型数据库系统。
(3)、两类数据库系统的共同特点:

1)、支持三级模式(外模式、模式、内模式)的体系结构。(具有转换功能)
2)、用存取路径来表示数据之间的联系。
3)、独立的数据定义语言。
4)、导航的数据操纵语言。(过程化语言)

二、第二代数据库系统

20世纪70年代称为数据库时代。
20世纪80年代开发出的DBMS称为关系数据库系统.

第二代数据库系统的数据模型:关系数据模型。
关系模型由数据结构、关系操作和数据完整性组成
第二代数据库系统特点如下:
模型简单清晰、理论基础好】数据独立性强、数据库语言非过程化和标准化。

三、第三代数据库系统(简答题

(1)、第三代数据库系统需满足《第三代数据库系统宣言》的三个基本特征:

1)、第三代数据库系统应支持数据管理、对象管理和知识管理。
需要以支持面向对象数据模型为主要特征的数据库系统。
2)、第三代数据库系统必须保持或继承第二代数据系统的技术。
非过程化数据存取方式和数据独立性。
3)、第三代数据库系统必须对其他系统开放。
开放性表现在:支持数据库语言标准;支持标准网络协议;具有可移植性、可连接性、可扩展性和互操性。

第二节 数据仓库与数据挖掘

一、从数据库到数据仓库

两类不同的数据出来工作:一类是操作型处理,也称为联机事务处理(OLTP);
另一类是分析型处理,也称为联机分析处理(OLAP)。

(1)、数据仓库概念:数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合、用以支持管理决策的过程。(一种面向分析的数据存储方案
(2)、数据仓库的特征:面向主题、集成性、数据的非易失性、数据的时变性。
(3)、数据仓库的重要概念:粒度、分割、维。

1)、粒度:数据仓库的数据单位中保存数据的细化或综合程度的级别。
细化程度越高、粒度级就越小。
2)、分割:将数据分散到各自的物理单元中,便于分别处理,以提高数据处理的效率。
数据分割后的单元称为切片。
3)、维:特定角度,是考虑问题时的一类属性。(最常用的是时间维

(4)、数据仓库也称为企业仓库,数据集市体系结构的数据仓库概念,其基本思想是自下而上的数据仓库的开发方法;
(5)、数据集市结构的数据仓库,又称为主题结构数据仓库,按照主题进行构思形成的数据仓库。
(6)、数据集市分为独立的数据集市、从属的数据集市、混合数据集市。

二、数据挖掘技术

数据挖掘是从大量的,不完全的,有噪声的、模糊的、随机的应用数据中发现并提取潜在有用的信息和知识的一种技术,也称为数据库中的知识发现。
OLAP是数据汇总/聚集工具。其目标是简化和支持交互式数据分析,而数据挖掘的目标是尽可能自动处理。

在数据库技术中,数据处理基于查询,可发现有用的信息。

(1)、数据挖掘的具有的功能

1)、概念描述:通过数据挖掘,可总结某些数据特征。
2)、关联分析:目的是找出数据库中隐藏的关联网。
关联分为简单关联、时序关联、因果关联。
3)、分类与预测:分类是找出一个类别的概念描述,代表了这类数据的整体信息,即该类的内涵描述,并用此来构造模型,一般用规则或决策树模式表示。
常见的分类模型及算法有决策树模型、神经网络模型、线性回归模型。
4)、聚类:是把数据按照相似性归纳成若干类别,其目的是使属于同一类别的对象之间的距离尽可能小,而不同类别的对象之间的距离尽可能大。(常用方法:K-Means、GMM)
5)、孤立点检测:孤立点是指数据中与整体表现行为不一致的数据集合
6)、趋势和演变分析:通过数据挖掘,描述行为随着时间变化的对象所遵循的规律或趋势。

(2)、数据挖掘的实际步骤:确定业务对象、数据的选择、数据的预处理、建模、模型评估、模型部署。(简答题

第三节 大数据管理技术

一、大数据定义

大数据通常定义:数据量很大、数据形式多样化的数据。

(1)、大数据有以下特征:

1)、大量化:数据规模庞大。
2)、多样化:数据种类繁多,各方面存在差异性。
3)、快速化:处理数据效率要快。
4)、价值密度低:

二、大数据管理技术典型代表

(1)、大数据存储:Hadoop开源架构下的分布式文件系统(HDFS)。

HDFS的优点:(简答题
HDFS与常规文件不同,是以粒度数据块的方式存储文件,从而减少了元数据的数量,其数据块通过随机的方式选择不同的结点并存储在各个地方。其他存储方式就有良好的可扩展性,可支持千万量级的存储,并为上层应用提供透明的数据访问和存储功能,还有容错率,通过多副本数据块的存储方式保障系统从故障中快速恢复。

(2)、NoSQL数据管理系统(分布式数据管理系统),系统支持的数据存储模型通常有键值(Key-Value)模型(NoSQL数据库采用的最多存储方式)、文档(Document)模型、列(Column)模型和图(Graph)模型。

1)、文档存储不需要定义表结构,适合存储非结构化的数据,常见文档型数据库有CouchDB、MongoDB。
2)、列存储以列为单位,读入数据,具高扩展性(Cassandra、HBase)。
3)、图存储是基于图理论构建,结点代表实体,属性保存与结点相关的信息,边用来连接结点,表示两者关系。

(3)、MapReduce技术:是一种并发编程,也是一种软件框架。

MapReduce技术的执行过程:(简答题
对输入的数据块源进行分块,交给多个MAP任务去执行,MAP任务执行MAP的函数,根据某种规则对数据分类,写入本地硬盘;进入Reduce阶段,Reduce函数将MAP阶段有相同key值的结果进行收集与合并,在次写入。最终结果可通过合并所有Reduce任务的输出得到。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章