spark-15.sparkSQL_6_数据仓库

数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

特点:

数据仓库的数据是面向主题的;
数据仓库的数据是集成的;
数据仓库的数据是不可更新的,能追加但不能更改;
数据仓库的数据是随时间不断变化的;

发展阶段:

  • 简单报表阶段:
    解决一些日常的工作中业务人员需要的报表,以及生成一些简单的能够帮助领导进行决策所需的汇总数据。这个阶段的大部分表现形式为数据库和前端报表工具。
  • 数据集市阶段:
    这个阶段主要根据业务部门的需要,进行一定的数据采集,整理,按照业务人员的需要,进行多维报表的展现,能够提供对特定业务指导的数据,并且能够提供特定的领导决策数据。
  • 数据仓库阶段:
    这个阶段主要按照一定的数据模型,对整个企业的数据进行采集,整理,并且能够按照各个业务部门的需要,提供跨部门的,完全一致的业务报表数据,能够通过数据仓库生成对业务具有指导性的数据,同时为领导决策提供全面的数据支持。

数据仓库的分层:

ODS(临时存储层)
PDW(数据仓库层)
DM(数据集市层)
APP(应用层)

数据仓库的建模:

1.业务模型,主要解决业务层面的分解和程序化。
2.领域模型,对业务模型进行抽象处理,生成领域概念模型。
3.逻辑模型,主要将领域模型的概念实体以及实体之间的关系进行数据库层次的逻辑化。
4.物理模型,主要解决逻辑模针对不同关系型数据库的物理化以及性能等一些具体的技术问题。

建模方法:

  • 范式建模法
  • 实体建模法
  • 维度建模法
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章