数据库系统原理第八章

第八章数据管理技术的发展

**大家想一起学习交流的可以加群，WX：MrCroods。**

第一节数据库技术发展概述

数据模型是数据库系统的核心和基础。三个发展阶段：
第一代的网状、层次数据库系统，第二代的关系数据库系统，以及新一代的数据库系统。

一、第一代数据库系统

第一代数据库系统的数据模型：层次模型和网状模型。

（1）、层次模型数据库管理系统IMS。
（2）、DBTG所提议的方法（该方法是20世纪60年代末70年代初提出）是基于网状结构的，是网状模型数据库系统。
（3）、两类数据库系统的共同特点：

1）、支持三级模式（外模式、模式、内模式）的体系结构。（具有转换功能）
2）、用存取路径来表示数据之间的联系。
3）、独立的数据定义语言。
4）、导航的数据操纵语言。（过程化语言）

二、第二代数据库系统

20世纪70年代称为数据库时代。
20世纪80年代开发出的DBMS称为关系数据库系统.

第二代数据库系统的数据模型：关系数据模型。
关系模型由数据结构、关系操作和数据完整性组成
第二代数据库系统特点如下：
模型简单清晰、理论基础好】数据独立性强、数据库语言非过程化和标准化。

三、第三代数据库系统（`简答题`）

（1）、第三代数据库系统需满足《第三代数据库系统宣言》的三个基本特征：

1）、第三代数据库系统应支持数据管理、对象管理和知识管理。
需要以支持面向对象数据模型为主要特征的数据库系统。
2）、第三代数据库系统必须保持或继承第二代数据系统的技术。
非过程化数据存取方式和数据独立性。
3）、第三代数据库系统必须对其他系统开放。
开放性表现在：支持数据库语言标准；支持标准网络协议；具有可移植性、可连接性、可扩展性和互操性。

第二节数据仓库与数据挖掘

一、从数据库到数据仓库

两类不同的数据出来工作：一类是操作型处理，也称为联机事务处理（OLTP）；
另一类是分析型处理，也称为联机分析处理（OLAP）。

（1）、数据仓库概念：数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合、用以支持管理决策的过程。（一种面向分析的数据存储方案）
（2）、数据仓库的特征：面向主题、集成性、数据的非易失性、数据的时变性。
（3）、数据仓库的重要概念：粒度、分割、维。

1）、粒度：数据仓库的数据单位中保存数据的细化或综合程度的级别。
细化程度越高、粒度级就越小。
2）、分割：将数据分散到各自的物理单元中，便于分别处理，以提高数据处理的效率。
数据分割后的单元称为切片。
3）、维：特定角度，是考虑问题时的一类属性。（最常用的是时间维）

（4）、数据仓库也称为企业仓库，数据集市体系结构的数据仓库概念，其基本思想是自下而上的数据仓库的开发方法；
（5）、数据集市结构的数据仓库，又称为主题结构数据仓库，按照主题进行构思形成的数据仓库。
（6）、数据集市分为独立的数据集市、从属的数据集市、混合数据集市。

二、数据挖掘技术

数据挖掘是从大量的，不完全的，有噪声的、模糊的、随机的应用数据中发现并提取潜在有用的信息和知识的一种技术,也称为数据库中的知识发现。
OLAP是数据汇总/聚集工具。其目标是简化和支持交互式数据分析，而数据挖掘的目标是尽可能自动处理。

在数据库技术中，数据处理基于查询，可发现有用的信息。

（1）、数据挖掘的具有的功能

1）、概念描述：通过数据挖掘，可总结某些数据特征。
2）、关联分析：目的是找出数据库中隐藏的关联网。
关联分为简单关联、时序关联、因果关联。
3）、分类与预测：分类是找出一个类别的概念描述，代表了这类数据的整体信息，即该类的内涵描述，并用此来构造模型，一般用规则或决策树模式表示。
常见的分类模型及算法有决策树模型、神经网络模型、线性回归模型。
4）、聚类：是把数据按照相似性归纳成若干类别，其目的是使属于同一类别的对象之间的距离尽可能小，而不同类别的对象之间的距离尽可能大。（常用方法：K-Means、GMM）
5）、孤立点检测：孤立点是指数据中与整体表现行为不一致的数据集合。
6）、趋势和演变分析：通过数据挖掘，描述行为随着时间变化的对象所遵循的规律或趋势。

（2）、数据挖掘的实际步骤：确定业务对象、数据的选择、数据的预处理、建模、模型评估、模型部署。（简答题）

第三节大数据管理技术

一、大数据定义

大数据通常定义：数据量很大、数据形式多样化的数据。

（1）、大数据有以下特征：

1）、大量化：数据规模庞大。
2）、多样化：数据种类繁多，各方面存在差异性。
3）、快速化：处理数据效率要快。
4）、价值密度低：

二、大数据管理技术典型代表

（1）、大数据存储：Hadoop开源架构下的分布式文件系统（HDFS）。

HDFS的优点：（简答题）
HDFS与常规文件不同，是以粒度数据块的方式存储文件，从而减少了元数据的数量，其数据块通过随机的方式选择不同的结点并存储在各个地方。其他存储方式就有良好的可扩展性，可支持千万量级的存储，并为上层应用提供透明的数据访问和存储功能，还有容错率，通过多副本数据块的存储方式保障系统从故障中快速恢复。

（2）、NoSQL数据管理系统（分布式数据管理系统），系统支持的数据存储模型通常有键值（Key-Value）模型（NoSQL数据库采用的最多存储方式）、文档（Document）模型、列（Column）模型和图（Graph）模型。

1）、文档存储不需要定义表结构，适合存储非结构化的数据，常见文档型数据库有CouchDB、MongoDB。
2）、列存储以列为单位，读入数据，具高扩展性（Cassandra、HBase）。
3）、图存储是基于图理论构建，结点代表实体，属性保存与结点相关的信息，边用来连接结点，表示两者关系。

（3）、MapReduce技术：是一种并发编程，也是一种软件框架。

MapReduce技术的执行过程：（简答题）
对输入的数据块源进行分块，交给多个MAP任务去执行，MAP任务执行MAP的函数，根据某种规则对数据分类，写入本地硬盘；进入Reduce阶段，Reduce函数将MAP阶段有相同key值的结果进行收集与合并，在次写入。最终结果可通过合并所有Reduce任务的输出得到。

数据库系统原理第八章

第八章数据管理技术的发展

第一节数据库技术发展概述

一、第一代数据库系统

二、第二代数据库系统

三、第三代数据库系统（`简答题`）

第二节数据仓库与数据挖掘

一、从数据库到数据仓库

二、数据挖掘技术

第三节大数据管理技术

一、大数据定义

二、大数据管理技术典型代表

Wireshark 安装+使用（一）

數據庫系統原理第三章

離散數學第一部分

數據庫系統原理第八章

軟件工程第四章（第二部分）

數據庫系統原理第四章

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

数据库系统原理第八章

第八章 数据管理技术的发展

第一节 数据库技术发展概述

一、第一代数据库系统

二、第二代数据库系统

三、第三代数据库系统（简答题）

第二节 数据仓库与数据挖掘

一、从数据库到数据仓库

二、数据挖掘技术

第三节 大数据管理技术

一、大数据定义

二、大数据管理技术典型代表

第八章数据管理技术的发展

第一节数据库技术发展概述

三、第三代数据库系统（`简答题`）

第二节数据仓库与数据挖掘

第三节大数据管理技术