數據倉庫技術(Data Warehouse Technologien) 第二章節 數據倉庫架構(1)

0. 概覽

  • 要求
  • 參考架構
  • Data Warehousing 階段
  • 組件

1. Data Warehousing的要求

  • 數據源和分析系統之間的獨立性(關於可用性、負載、持久性/連續的改變)
  • 持續提供集成的和派生的數據(持久)
  • 被提供數據的可重用性
  • 原則上進行任何評估的可能性
  • 支持獨立視圖(比如,關於時間跨度、域和結構)
  • 可拓展性(比如,集成一個新的源)
  • 過程自動化
  • 數據結構、訪問權限和流程的唯一性
  • 目標方向對準:數據分析

2. Codd 12 OLAP 準則

  1. 多維度概念視圖
  2. 透明
  3. 可訪問
  4. 性能
  5. 可伸縮性
  6. 一般的維度
  7. 動態處理擁有稀少的多維度結構
  8. 多用戶模式/運行
  9. 不受限制的操作
  10. 直觀的用戶界面
  11. 靈活報告
  12. 任意大量維度和聚合層次/級別

3. FASMI (Fast Analysis on Shared Multimensional Information)

  • 短響應時間(平均低於5秒)
  • 簡單和靈活的評估可能
  • 擁有不同權限的異構用戶
  • 多維度是重要的標準
  • 查詢必要維度的數量和所屬屬性的值域

4. 參考架構

參考架構(組件交互)

 

5. Data Warehousing 階段

  1. 通過監視器監視源的改變;
  2. 藉助提取器複製相關數據至臨時數據清洗區域
  3. 數據清洗區轉換數據(清洗,集成);
  4. 複製數據至集成的基礎數據庫作爲不同分析的基礎 / 根據 / 前提;
  5. 填充數據立方體(用於分析目的的數據庫);
  6. 分析:操縱數據倉庫中的數據;

重點:基礎數據庫數據立方體 表示數據倉庫

6. 數據倉庫 Manager

  • 數據倉庫系統的核心組件
  • 啓動、控制和監控單個過程(過程控制);
  • 數據採集過程的啓動:
    • 有規律的時間間隔(每個午夜,週末等):開始從源中提取數據並傳送到數據清洗區域;
    • 當源改變的時候:啓動相應的提取組件
    • 根據管理員明確的需求;
    • Push vs. Pull 策略;
    • 現實性/現實意義是分析任務的要求;
  • 觸發加載過程之後:
    • 監控更多的步驟(清洗,集成等);
    • 協調處理順序;
  • 故障情況
    • 錯誤文檔;
    • 重啓機制;
  • 訪問來自元數據庫的元數據
    • 過程控制;
    • 組件參數;

7. 數據源

  • 爲數據倉庫提供數據
    • 不直接屬於數據倉庫;
    • 可以是內部的(企業)或者是外部的(比如:國立機構/設施);
    • 關於結構、內容和接口/界面的異構(數據庫、文件資料);
    • 具有特別重要意義的數據的來源與質量的選擇;
  • 選擇因素
    • 數據倉庫的目的;
    • 源數據的質量;
    • 可用性(合法的、社會/公益的、技術的);
    • 購買/獲得數據的價格(特別是外部來源);
  • 分類
    • 來源:內部、外部
    • 時間:最新、歷史
    • 使用級別:原始數據、元數據
    • 內容:數字、字符串、圖像、參考、文檔
    • 描繪/表達方式:數字的、文字數字的、BLOB(二進制大對象)
    • 語言和字符集
    • 機密程度
  • 質量要求
    • 一致性(一致性(邏輯))
    • 正確性(與現實協調一致)
    • 完整性(比如:缺少缺失值或者確實屬性)
    • 可靠性(比如:信任數據來源)
    • 精確性(比如:小數位數)
    • 粒度(比如:精確到天的數據)
    • 反映當下的(上一次更改是什麼時候發生的 vs. 數據更改的發生)
    • 重要性(數據有多重要)
    • 可依賴性(來源的可追溯性,提供者的可信度)
    • 可理解性(內容上的以及對於每個目標組的技術/結構)
    • 可用性(合適的格式,合乎目標的/有效的)
    • 統一性(數據格式)
    • 唯一性(可解釋的)
    • 密匙完整性(密匙和參考)
發佈了35 篇原創文章 · 獲贊 10 · 訪問量 6877
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章