0. 概覽
- 要求
- 參考架構
- Data Warehousing 階段
- 組件
1. Data Warehousing的要求
- 數據源和分析系統之間的獨立性(關於可用性、負載、持久性/連續的改變)
- 持續提供集成的和派生的數據(持久)
- 被提供數據的可重用性
- 原則上進行任何評估的可能性
- 支持獨立視圖(比如,關於時間跨度、域和結構)
- 可拓展性(比如,集成一個新的源)
- 過程自動化
- 數據結構、訪問權限和流程的唯一性
- 目標方向對準:數據分析
2. Codd 12 OLAP 準則
- 多維度概念視圖
- 透明
- 可訪問
- 性能
- 可伸縮性
- 一般的維度
- 動態處理擁有稀少的多維度結構
- 多用戶模式/運行
- 不受限制的操作
- 直觀的用戶界面
- 靈活報告
- 任意大量維度和聚合層次/級別
3. FASMI (Fast Analysis on Shared Multimensional Information)
- 短響應時間(平均低於5秒)
- 簡單和靈活的評估可能
- 擁有不同權限的異構用戶
- 多維度是重要的標準
- 查詢必要維度的數量和所屬屬性的值域
4. 參考架構
5. Data Warehousing 階段
- 通過監視器監視源的改變;
- 藉助提取器複製相關數據至臨時數據清洗區域;
- 在數據清洗區域轉換數據(清洗,集成);
- 複製數據至集成的基礎數據庫作爲不同分析的基礎 / 根據 / 前提;
- 填充數據立方體(用於分析目的的數據庫);
- 分析:操縱數據倉庫中的數據;
重點:基礎數據庫 和 數據立方體 表示數據倉庫
6. 數據倉庫 Manager
- 數據倉庫系統的核心組件;
- 啓動、控制和監控單個過程(過程控制);
- 數據採集過程的啓動:
- 有規律的時間間隔(每個午夜,週末等):開始從源中提取數據並傳送到數據清洗區域;
- 當源改變的時候:啓動相應的提取組件
- 根據管理員明確的需求;
- Push vs. Pull 策略;
- 現實性/現實意義是分析任務的要求;
- 觸發加載過程之後:
- 監控更多的步驟(清洗,集成等);
- 協調處理順序;
- 故障情況
- 錯誤文檔;
- 重啓機制;
- 訪問來自元數據庫的元數據
- 過程控制;
- 組件參數;
7. 數據源
- 爲數據倉庫提供數據
- 不直接屬於數據倉庫;
- 可以是內部的(企業)或者是外部的(比如:國立機構/設施);
- 關於結構、內容和接口/界面的異構(數據庫、文件資料);
- 具有特別重要意義的數據的來源與質量的選擇;
- 選擇因素
- 數據倉庫的目的;
- 源數據的質量;
- 可用性(合法的、社會/公益的、技術的);
- 購買/獲得數據的價格(特別是外部來源);
- 分類
- 來源:內部、外部
- 時間:最新、歷史
- 使用級別:原始數據、元數據
- 內容:數字、字符串、圖像、參考、文檔
- 描繪/表達方式:數字的、文字數字的、BLOB(二進制大對象)
- 語言和字符集
- 機密程度
- 質量要求
- 一致性(一致性(邏輯))
- 正確性(與現實協調一致)
- 完整性(比如:缺少缺失值或者確實屬性)
- 可靠性(比如:信任數據來源)
- 精確性(比如:小數位數)
- 粒度(比如:精確到天的數據)
- 反映當下的(上一次更改是什麼時候發生的 vs. 數據更改的發生)
- 重要性(數據有多重要)
- 可依賴性(來源的可追溯性,提供者的可信度)
- 可理解性(內容上的以及對於每個目標組的技術/結構)
- 可用性(合適的格式,合乎目標的/有效的)
- 統一性(數據格式)
- 唯一性(可解釋的)
- 密匙完整性(密匙和參考)