1. 概覽
- ETL過程
- 從源中提取數據
- 加載數據
- 轉換任務
- 模式的異構性
- 數據錯誤
- ELT
2. ETL:概覽
- 兩步
- 從源中到數據清洗區域
- 從源中提取數據
- 創建/識別差異更新
- 創建LOAD文件
- 從數據清洗區域到基礎數據庫
- 數據清洗和標記
- 生成集成的數據集
- DWH持續提供數據
- 保證DWH與數據源的一致性
- 從源中到數據清洗區域
- 必要的有效方法 → 最小化阻塞時間
- 必要的嚴謹檢測 → 保證數據質量
3. ETL過程
- 經常是Data Warehousing中最昂貴(/花銷最大)的部分
- 大量的數據源
- 異構性
- 數據量
- 轉換的複雜度
- 模式集成和實例集成
- 數據清洗
- 幾乎沒有一般通用的方法或者系統支持,但是有着大量的工具可以使用
- E-提取:選擇源中數據的一部分,並且準備轉換
- T-轉換:以給定的模式要求和質量需求來調整數據
- L-加載:將數據蒐集區域的數據物理插入到數據倉庫(可能有必要的聚合)
------------待更新---------------------