数据仓库技术(Data Warehouse Technologien) 第四章节 提取,转换,加载 (ETL)(1)

1. 概览

  • ETL过程
  • 从源中提取数据
  • 加载数据
  • 转换任务
  • 模式的异构性
  • 数据错误
  • ELT

2. ETL:概览

  • 两步
    • 从源中到数据清洗区域
      • 从源中提取数据
      • 创建/识别差异更新
      • 创建LOAD文件
    • 从数据清洗区域到基础数据库
      • 数据清洗和标记
      • 生成集成的数据集
    • DWH持续提供数据 
    • 保证DWH与数据源的一致性
  • 必要的有效方法 → 最小化阻塞时间
  • 必要的严谨检测 → 保证数据质量

3. ETL过程

  • 经常是Data  Warehousing中最昂贵(/花销最大)的部分
    • 大量的数据源
    • 异构性
    • 数据量
    • 转换的复杂度
      • 模式集成和实例集成
      • 数据清洗
    • 几乎没有一般通用的方法或者系统支持,但是有着大量的工具可以使用
  • E-提取:选择源中数据的一部分,并且准备转换
  • T-转换:以给定的模式要求和质量需求来调整数据
  • L-加载:将数据搜集区域的数据物理插入到数据仓库(可能有必要的聚合)

------------待更新---------------------

 

 

 

 

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章