數據倉庫技術(Data Warehouse Technologien) 第四章節 提取,轉換,加載 (ETL)(1)

1. 概覽

  • ETL過程
  • 從源中提取數據
  • 加載數據
  • 轉換任務
  • 模式的異構性
  • 數據錯誤
  • ELT

2. ETL:概覽

  • 兩步
    • 從源中到數據清洗區域
      • 從源中提取數據
      • 創建/識別差異更新
      • 創建LOAD文件
    • 從數據清洗區域到基礎數據庫
      • 數據清洗和標記
      • 生成集成的數據集
    • DWH持續提供數據 
    • 保證DWH與數據源的一致性
  • 必要的有效方法 → 最小化阻塞時間
  • 必要的嚴謹檢測 → 保證數據質量

3. ETL過程

  • 經常是Data  Warehousing中最昂貴(/花銷最大)的部分
    • 大量的數據源
    • 異構性
    • 數據量
    • 轉換的複雜度
      • 模式集成和實例集成
      • 數據清洗
    • 幾乎沒有一般通用的方法或者系統支持,但是有着大量的工具可以使用
  • E-提取:選擇源中數據的一部分,並且準備轉換
  • T-轉換:以給定的模式要求和質量需求來調整數據
  • L-加載:將數據蒐集區域的數據物理插入到數據倉庫(可能有必要的聚合)

------------待更新---------------------

 

 

 

 

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章