數據倉庫中的元數據管理

本文主要介紹什麼是元數據、爲什麼要管理元數據、怎樣管理元數據。

1、什麼是元數據?

      狹義的解釋是用來描述數據的數據;廣義的來看,除了業務邏輯直接讀寫處理的那些業務數據,所有其它用來維持整個系統運轉所需的信息、數據都可以叫作元數據;

      按照傳統的定義,元數據(Metadata)是關於數據的數據。在數據倉庫系統中,元數據可以幫助數據倉庫管理員和數據倉庫的開發人員非常方便地找到他們所關心的數據;元數據是描述數據倉庫內數據的結構和建立方法的數據,可將其按用途的不同分爲兩類:技術元數據(Technical Metadata)和業務元數據(Business Metadata)。

元數據是描述數據倉庫內數據的結構和建立方法的數據。可將其按用途的不同分爲兩類,技術元數據和商業元數據。

技術元數據

存儲關於數據倉庫系統技術細節的數據,是用於開發和管理數據倉庫使用的數據

  • 數據倉庫結構的描述,包括倉庫模式、視圖、維、層次結構和導出數據的定義,以及數據集市的位置和內容;
  • 業務系統、數據倉庫和數據集市的體系結構和模式;
  • 彙總用的算法,包括度量和維定義算法,數據粒度、主題領域、聚集、彙總、預定義的查詢與報告;
  • 由操作環境到數據倉庫環境的映射,包括源數據和它們的內容、數據分割、數據提取、清理、轉換規則和數據刷新規則、安全(用戶授權和存取控制)。

業務元數據

從業務角度描述了數據倉庫中的數據,它提供了介於使用者和實際系統之間的語義層,使得不懂計算機技術的業務人員也能夠“讀懂”數據倉庫中的數據。

  • 企業概念模型:這是業務元數據所應提供的重要的信息,它表示企業數據模型的高層信息、整個企業的業務概念和相互關係。以這個企業模型爲基礎,不懂數據庫技術和SQL語句的業務人員對數據倉庫中的數據也能做到心中有數。
  • 多維數據模型:這是企業概念模型的重要組成部分,它告訴業務分析人員在數據集市當中有哪些維、維的類別、數據立方體以及數據集市中的聚合規則。這裏的數據立方體表示某主題領域業務事實表和維表的多維組織形式。
  • 業務概念模型和物理數據之間的依賴:以上提到的業務元數據只是表示出了數據的業務視圖,這些業務視圖與實際的數據倉庫或數據庫、多維數據庫中的表、字段、維、層次等之間的對應關係也應該在元數據知識庫中有所體現。

      搭建數據倉庫中最容易缺失的就是對元數據的管理,很少有數據倉庫團隊具備完整的元數據,當然搭建數據倉庫的工程師本身就是活的元數據,但無論是爲了用數據的人還是數據倉庫自身的團隊着想,元數據都不可或缺。一方面元數據爲數據需求方提供了完整的數據倉庫使用文檔,幫助他們能自主地快速獲取數據,另一方面數據倉庫團隊成員可以從日常的數據解釋中解脫出來,無論是對後期的不斷迭代更新和維護還是培訓新的員工,都非常有好處,元數據可以讓數據倉庫的應用和維護更加高效。

2、爲什麼要管理元數據?

在數據管理領域,我們一直致力於讓數據爲我們提供價值,爲此我們付出大量的努力和投入。
在過去二十年,各大企業都在着手搭建數據倉庫。當我們費盡艱辛搭建好數據倉庫併成功用於線上運行時,發現我們將花費更多時間爲數據科學家、分析師做數據準備。分析他們的數據需求,提供閃閃發光的數據報表。這將佔用數據維護人員80% 的時間投入,這個投入是偏高的,包含如溝通、反查、校正等大量重複和不必要投入。
如何提升數據管理能力?
我們需要回到這80% 的投入,想盡一切辦法壓縮它們,這樣才能更快的提供數據服務。這時有種工具呈現出了優勢,那就是“元數據”。
元數據,通常的定義爲“描述數據的數據”。更準確一點說:元數據是描述流程、信息和對象的數據。這些描述涉及技術屬性特徵(例如,結構和行爲)、業務定義(包括字典和分類法)以及操作特徵(如活動指標和使用歷史)。
我們用“元數據”去攻擊這“80%”。將元數據做集中式管理,梳理元數據樹,翻譯、標註、補充元數據內容。方便使用者查找數據、理解數據、追蹤溯源以及規範專業知識。降低數據準備期間溝通、反查、校正等大量重複和不必要投入,這樣我們就可以留下更多的時間進行數據分析,不僅節省大量資金投入,還賺取更多的潤。
以電信運營商爲例,通過各個時期的IT 建設,公司有計費系統、網絡系統、OA 系統、財會系統和客服系統等等。隨着公司數據倉庫項目建設完成,各系統核心業務數據都彙總到了大數據中心。本以爲會大幅提升IT 系統的“智能性”,沒想到基層的反應是根本用不起來。很多問題都來源於:缺乏針對數據的指導,業務邏輯把控不準確,各部門指標不統一,導致數據準備的成本較高。
繼續以電信運營商爲例,對於運營商的“當日用戶數”這個指標,各個部門給出的定義並不一樣:
在營業部每週例會上,各個部門對“當日用戶數”爭吵的面紅耳赤,擔負着業務壓力的業務人員很可能誰也說服不了對方來接受自己的數字,不得不要求數據維護人員額外投入工作量去解析差異根源,校準報表數據。
這個問題按照元數據技術的術語來講,就是在業務元數據上,大家對於業務的認識並不統一。這種問題會造成大量的時間成本浪費: 
元數據管理平臺的建設就是爲了避免出現這樣的問題。建設元數據管理平臺可以:

實現對技術元數據抽取、彙集、梳理,註釋相關庫表、列信息。支持查看完整數據鏈路和關聯圖譜。

梳理業務元數據,將相關的指標、流程在平臺中建立起來,固化並傳播企業專業知識。

將業務元數據同技術元數據聯繫起來,聯通業務與技術,給業務管理人員和技術維護人員提供更詳盡的指導。

就上文的舉例來看,就可以在元數據管理平臺上維護“當日用戶數”等易混淆指標,規範其數據來源,將其同技術庫表元數據關聯起來並作詳盡的註釋。報表建設以元數據管理平臺維護的業務知識爲基準,這樣報表數據有章可循、有理有據,消弭不必要的爭吵,各部門專心分析報表數據,充分利用數據價值。
顯而易見,元數據管理平臺梳理企業資產、規範專業知識。推動元數據管理可以顯著降低數據準備成本: 
元數據管理是基礎
元數據管理可以梳理企業資產,規範專業知識,降低數據準備期間溝通、反查、校正等大量重複和不必要投入,輔助提升數據分析效率,是數據管理的基礎。
如果你進行的數據處理越複雜,作爲支撐的數據就需要更好。如果你同時兼顧了這兩件事,才能讓更多的人直接使用數據併爲自己服務。很多時候我們往往“本末倒置”,碰到問題僅僅關注要如何解決,而忽略基礎的準備,不僅增加複雜度和重複工作量,還會花費大量的溝通、理解的成本。
元數據管理是基礎
額外的,元數據管理作爲底層基礎,能使我們在後續進行集成操作,如處理雲;在混合環境中做數據集成;在重複環境中做大數據時,獲取巨大的優勢。事實上,將數據更快的交付給企業纔是重點。
綜上,爲了更快的數據分析和支撐業務,IT 中心的能力至關重要,因爲它就是“80%”投入的來源。那麼什麼使一個成功的IT中心變得更加卓越。

3、怎樣進行元數據管理

待續

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章