数据仓库技术(Data Warehouse Technologien) 第二章节 数据仓库架构(1)

0. 概览

  • 要求
  • 参考架构
  • Data Warehousing 阶段
  • 组件

1. Data Warehousing的要求

  • 数据源和分析系统之间的独立性(关于可用性、负载、持久性/连续的改变)
  • 持续提供集成的和派生的数据(持久)
  • 被提供数据的可重用性
  • 原则上进行任何评估的可能性
  • 支持独立视图(比如,关于时间跨度、域和结构)
  • 可拓展性(比如,集成一个新的源)
  • 过程自动化
  • 数据结构、访问权限和流程的唯一性
  • 目标方向对准:数据分析

2. Codd 12 OLAP 准则

  1. 多维度概念视图
  2. 透明
  3. 可访问
  4. 性能
  5. 可伸缩性
  6. 一般的维度
  7. 动态处理拥有稀少的多维度结构
  8. 多用户模式/运行
  9. 不受限制的操作
  10. 直观的用户界面
  11. 灵活报告
  12. 任意大量维度和聚合层次/级别

3. FASMI (Fast Analysis on Shared Multimensional Information)

  • 短响应时间(平均低于5秒)
  • 简单和灵活的评估可能
  • 拥有不同权限的异构用户
  • 多维度是重要的标准
  • 查询必要维度的数量和所属属性的值域

4. 参考架构

参考架构(组件交互)

 

5. Data Warehousing 阶段

  1. 通过监视器监视源的改变;
  2. 借助提取器复制相关数据至临时数据清洗区域
  3. 数据清洗区转换数据(清洗,集成);
  4. 复制数据至集成的基础数据库作为不同分析的基础 / 根据 / 前提;
  5. 填充数据立方体(用于分析目的的数据库);
  6. 分析:操纵数据仓库中的数据;

重点:基础数据库数据立方体 表示数据仓库

6. 数据仓库 Manager

  • 数据仓库系统的核心组件
  • 启动、控制和监控单个过程(过程控制);
  • 数据采集过程的启动:
    • 有规律的时间间隔(每个午夜,周末等):开始从源中提取数据并传送到数据清洗区域;
    • 当源改变的时候:启动相应的提取组件
    • 根据管理员明确的需求;
    • Push vs. Pull 策略;
    • 现实性/现实意义是分析任务的要求;
  • 触发加载过程之后:
    • 监控更多的步骤(清洗,集成等);
    • 协调处理顺序;
  • 故障情况
    • 错误文档;
    • 重启机制;
  • 访问来自元数据库的元数据
    • 过程控制;
    • 组件参数;

7. 数据源

  • 为数据仓库提供数据
    • 不直接属于数据仓库;
    • 可以是内部的(企业)或者是外部的(比如:国立机构/设施);
    • 关于结构、内容和接口/界面的异构(数据库、文件资料);
    • 具有特别重要意义的数据的来源与质量的选择;
  • 选择因素
    • 数据仓库的目的;
    • 源数据的质量;
    • 可用性(合法的、社会/公益的、技术的);
    • 购买/获得数据的价格(特别是外部来源);
  • 分类
    • 来源:内部、外部
    • 时间:最新、历史
    • 使用级别:原始数据、元数据
    • 内容:数字、字符串、图像、参考、文档
    • 描绘/表达方式:数字的、文字数字的、BLOB(二进制大对象)
    • 语言和字符集
    • 机密程度
  • 质量要求
    • 一致性(一致性(逻辑))
    • 正确性(与现实协调一致)
    • 完整性(比如:缺少缺失值或者确实属性)
    • 可靠性(比如:信任数据来源)
    • 精确性(比如:小数位数)
    • 粒度(比如:精确到天的数据)
    • 反映当下的(上一次更改是什么时候发生的 vs. 数据更改的发生)
    • 重要性(数据有多重要)
    • 可依赖性(来源的可追溯性,提供者的可信度)
    • 可理解性(内容上的以及对于每个目标组的技术/结构)
    • 可用性(合适的格式,合乎目标的/有效的)
    • 统一性(数据格式)
    • 唯一性(可解释的)
    • 密匙完整性(密匙和参考)
发布了35 篇原创文章 · 获赞 10 · 访问量 6877
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章