0. 概览
- 要求
- 参考架构
- Data Warehousing 阶段
- 组件
1. Data Warehousing的要求
- 数据源和分析系统之间的独立性(关于可用性、负载、持久性/连续的改变)
- 持续提供集成的和派生的数据(持久)
- 被提供数据的可重用性
- 原则上进行任何评估的可能性
- 支持独立视图(比如,关于时间跨度、域和结构)
- 可拓展性(比如,集成一个新的源)
- 过程自动化
- 数据结构、访问权限和流程的唯一性
- 目标方向对准:数据分析
2. Codd 12 OLAP 准则
- 多维度概念视图
- 透明
- 可访问
- 性能
- 可伸缩性
- 一般的维度
- 动态处理拥有稀少的多维度结构
- 多用户模式/运行
- 不受限制的操作
- 直观的用户界面
- 灵活报告
- 任意大量维度和聚合层次/级别
3. FASMI (Fast Analysis on Shared Multimensional Information)
- 短响应时间(平均低于5秒)
- 简单和灵活的评估可能
- 拥有不同权限的异构用户
- 多维度是重要的标准
- 查询必要维度的数量和所属属性的值域
4. 参考架构
5. Data Warehousing 阶段
- 通过监视器监视源的改变;
- 借助提取器复制相关数据至临时数据清洗区域;
- 在数据清洗区域转换数据(清洗,集成);
- 复制数据至集成的基础数据库作为不同分析的基础 / 根据 / 前提;
- 填充数据立方体(用于分析目的的数据库);
- 分析:操纵数据仓库中的数据;
重点:基础数据库 和 数据立方体 表示数据仓库
6. 数据仓库 Manager
- 数据仓库系统的核心组件;
- 启动、控制和监控单个过程(过程控制);
- 数据采集过程的启动:
- 有规律的时间间隔(每个午夜,周末等):开始从源中提取数据并传送到数据清洗区域;
- 当源改变的时候:启动相应的提取组件
- 根据管理员明确的需求;
- Push vs. Pull 策略;
- 现实性/现实意义是分析任务的要求;
- 触发加载过程之后:
- 监控更多的步骤(清洗,集成等);
- 协调处理顺序;
- 故障情况
- 错误文档;
- 重启机制;
- 访问来自元数据库的元数据
- 过程控制;
- 组件参数;
7. 数据源
- 为数据仓库提供数据
- 不直接属于数据仓库;
- 可以是内部的(企业)或者是外部的(比如:国立机构/设施);
- 关于结构、内容和接口/界面的异构(数据库、文件资料);
- 具有特别重要意义的数据的来源与质量的选择;
- 选择因素
- 数据仓库的目的;
- 源数据的质量;
- 可用性(合法的、社会/公益的、技术的);
- 购买/获得数据的价格(特别是外部来源);
- 分类
- 来源:内部、外部
- 时间:最新、历史
- 使用级别:原始数据、元数据
- 内容:数字、字符串、图像、参考、文档
- 描绘/表达方式:数字的、文字数字的、BLOB(二进制大对象)
- 语言和字符集
- 机密程度
- 质量要求
- 一致性(一致性(逻辑))
- 正确性(与现实协调一致)
- 完整性(比如:缺少缺失值或者确实属性)
- 可靠性(比如:信任数据来源)
- 精确性(比如:小数位数)
- 粒度(比如:精确到天的数据)
- 反映当下的(上一次更改是什么时候发生的 vs. 数据更改的发生)
- 重要性(数据有多重要)
- 可依赖性(来源的可追溯性,提供者的可信度)
- 可理解性(内容上的以及对于每个目标组的技术/结构)
- 可用性(合适的格式,合乎目标的/有效的)
- 统一性(数据格式)
- 唯一性(可解释的)
- 密匙完整性(密匙和参考)