元數據及數據倉庫相關概念

元數據(metadata)的概念

Data about Data

  • 狹義的解釋是用來描述數據的數據
  • 廣義的來看,除了業務邏輯直接讀寫處理的那些業務數據,所有其它用來維持整個系統運轉所需的信息、數據都可以叫作元數據

定義

按照傳統的定義,元數據(Metadata)是關於數據的數據。在數據倉庫系統中,元數據可以幫助數據倉庫管理員和數據倉庫的開發人員非常方便地找到他們所關心的數據;元數據是描述數據倉庫內數據的結構和建立方法的數據,可將其按用途的不同分爲兩類:技術元數據(Technical Metadata)和業務元數據(Business Metadata)。
在這裏插入圖片描述

技術元數據

存儲關於數據倉庫系統技術細節的數據,是用於開發和管理數據倉庫使用的數據

  • 數據倉庫結構的描述,包括倉庫模式、視圖、維、層次結構和導出數據的定義,以及數據集市的位置和內容;
  • 業務系統、數據倉庫和數據集市的體系結構和模式
  • 彙總用的算法,包括度量和維定義算法,數據粒度、主題領域、聚集、彙總、預定義的查詢與報告;
  • 由操作環境到數據倉庫環境的映射,包括源數據和它們的內容、數據分割、數據提取、清理、轉換規則和數據刷新規則、安全(用戶授權和存取控制)。

業務元數據

從業務角度描述了數據倉庫中的數據,它提供了介於使用者和實際系統之間的語義層,使得不懂計算機技術的業務人員也能夠“讀懂”數據倉庫中的數據

  • 企業概念模型:這是業務元數據所應提供的重要的信息,它表示企業數據模型的高層信息、整個企業的業務概念和相互關係。以這個企業模型爲基礎,不懂數據庫技術和SQL語句的業務人員對數據倉庫中的數據也能做到心中有數。
  • 多維數據模型:這是企業概念模型的重要組成部分,它告訴業務分析人員在數據集市當中有哪些維、維的類別、數據立方體以及數據集市中的聚合規則。這裏的數據立方體表示某主題領域業務事實表和維表的多維組織形式。
  • 業務概念模型和物理數據之間的依賴:以上提到的業務元數據只是表示出了數據的業務視圖,這些業務視圖與實際的數據倉庫或數據庫、多維數據庫中的表、字段、維、層次等之間的對應關係也應該在元數據知識庫中有所體現。

總結

搭建數據倉庫中最容易缺失的就是對元數據的管理,很少有數據倉庫團隊具備完整的元數據,當然搭建數據倉庫的工程師本身就是活的元數據,但無論是爲了用數據的人還是數據倉庫自身的團隊着想,元數據都不可或缺。一方面元數據爲數據需求方提供了完整的數據倉庫使用文檔,幫助他們能自主地快速獲取數據,另一方面數據倉庫團隊成員可以從日常的數據解釋中解脫出來,無論是對後期的不斷迭代更新和維護還是培訓新的員工,都非常有好處,元數據可以讓數據倉庫的應用和維護更加高效。

數據倉庫

ODS簡單的理解爲 Operational Data Store, 運營數據倉儲 數據整合層(也叫做數據緩衝層)

  • ODS存儲了運營系統(如OLTP(聯機事務處理)系統)近實時的詳細數據
  • 爲了尋找能滿足快速加載和數據整合的性能要求,並且減少面向分析需求的變更和擴充對生產系統影響的解決方案

EDW簡單理解爲 Enterprise Data Warehouse, 企業數據倉庫

  • 爲企業各級的經營決策和市場營銷提供及時、精確、全面的數據支持和科學、方便、體系化的分析工具和使用方法,爲除生產系統以外的管理、分析等需求提供數據支撐,實現業務數據與分析數據的分離。
  • 解決目前市場等部門信息獲取能力和分析決策手段不能適應企業環境變化和精確化管理要求的問題,並通過各種形式的主題,專題分析,支撐針對性營銷、上市信息披露、精確化管理.有效降低營銷成本,減少客戶流失,尋找商機,達到提升企業價值的目的。

ODS與EDW之間的差異

使用角色

  • ODS主要面向營業、渠道等一線生產人員和一線管理人員,爲了實現準實時、跨系統的運營細節數據的查詢,以獲得細粒度的運營數據展現,例如渠道人員查詢客戶的全視圖信息由ODS提供數據支撐。
  • EDW主要面向專業分析人員、輔助決策支持人員等,爲了實現基於歷史數據的統計分析和數據挖掘,以獲得客戶深層次的特徵和市場發展的規律,例如專業分析人員的經營狀況趨勢分析由EDW提供支撐。

數據來源

  • ODS需要的大部分運營數據直接來源生產系統。 ODS中的部分分析結果數據來源於EDW,例如客戶洞察信息等[^1]。
  • EDW需要的運營數據,如果在ODS中已存在,EDW則直接從ODS獲取這部分數據。· EDW需要的運營數據,如果在ODS中沒有,EDW則直接從生產系統獲取這部分數據。

數據獲取性能和及時性

  • ODS支持OLTP類型的數據更新,數據更新時間短,數據可實現準實時更新,性能與及時性都高於EDW
  • EDW中的數據一般通過批量加載進入,數據更新速度慢,無法實現準實時更新,數據更新時間不足以支持實時的報表和事件監控需求。

數據架構

  • ODS以關注生產運營過程的統計與監控爲主的生產視角主題域方式來組織數據;ODS提供操作數據的統計,主要提供應用需要的細粒度運營數據。ODS中也存在部分粗粒度彙總數據,但彙總的維度少且簡單
  • EDW關注對歷史數據的深層次分析與挖掘.從分析與挖掘的需要出發按不同主題維度來彙總與組織數據。EDW提供歷史數據的展示和分析,主要提供多層粗粒度彙總數據.彙總的維度多且複雜。

數據共享能力

  • ODS爲其他生產系統提供運營數據的準實時數據共享服務
  • EDW一般不爲生產系統提供此類準實時的數據共享服務。系統中的數據只供本系統分析與挖掘應用使用。

數據系統提供應用數據查詢

  • ODS提供生產環境下的數據查詢,查詢的交易量較小,不耗費太多資源,有確定的完成速度。而EDW提供分析環境下的查詢,查詢單元量較大,消耗的資源很多,完成的速度也不確定
  • ODS提供生產環境下實時性較高的生產經營報表,而EDW提供分析環境下的主題分析與挖掘報表。動態報表。
  • ODS提供面向少量維度的細粒度數據的統計,而EDW提供面向多個維度的多層粗粒度數據的主題統計、分析及深層次的挖掘。
  • ODS提供績效管理和統計、數據質量審計和監控管理等功能。
  • EDW提供趨勢分析、客戶消費行爲分析和評估等功能

數據存儲

  • 客戶等關鍵實體數據。ODS長久保存當前數據,EDW長久保存當前與歷史數據。
  • 詳單數據。ODS保存1個月到3個月;EDW保存2年。
  • 彙總數據。ODS保存3年;EDW保存5年。
  • 其他數據。ODS保存l3個月;EDW保存3年

系統技術特徵

  • ODS主要面對大併發用戶數、小數據量的訪問,EDW主要面對小併發用戶數、大數據量的訪問。
  • ODS數據庫優化同時側重索引和分區技術;EDW數據庫優化主要側重分區技術。
  • ODS支持OLTP類型和OLAP(聯機分析處理)類型的數據操作,EDW支持OLAP類型的數據操作。

系統可靠性

  • ODS參與運營.必須保證可靠性。
  • 相對ODS.EDW可以允許有更多的脫機時間。

系統開放性

  • 因爲需要與大量不同硬件、數據庫配置的系統相互交換數據。ODS要求比較高的系統開放性。
  • EDW一般只獲取數據.而不提供給其他應用系統以多種模式直接訪問,解決方案上也可採用相對封閉的數據庫、軟硬件平臺

數據倉庫分層

最底層的細節數據

管理策略是優化存儲,一般存儲導入的原始數據,便於進行向上的統計彙總,因爲數據量較大所以需要優化存儲

中間層是多維模型

管理策略是優化結構和查詢,面向主題的多維模型的設計,需要滿足OLAP和數據查詢的多樣需求,同時保證查詢的便捷性,關鍵在與維表的設計和維度的選擇及組合,事實表需要關注存儲和索引的優化;
####最上層是展現數據
管理策略是優化效率,一般會存放每天需要展現的彙總報表,或者根據多維模型拼裝的視圖,展現層的數據需要以最快的速度展現出來,一般用於BI平臺的Dashboard和報表。

參考資料

  1. 從概念到應用再到架構,一篇文章徹底讀懂元數據管理 http://www.360doc.com/content/16/1029/08/17488509_602243527.shtml
  2. 聊一聊數據倉庫中的元數據管理系統 https://yq.aliyun.com/articles/174269
  3. 淺析ODS與EDW 關係 https://www.cnblogs.com/quchunhui/articles/5340382.html
  4. 數據倉庫 http://webdataanalysis.net/no-category/questions-3/
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章