壯實學數據技術07:元數據

壯實學數據技術07:元數據
hi,米娜桑,我是大家的怪力少女趙壯實!

又是一個美好的週六的早上,今天我們來聊聊——元數據!

元數據也是近兩年才火熱起來的產品崗位和概念,因爲偏向於後側,相比於數據分析、數據BI、用戶分層、歸因等酷炫的名詞下,元數據就像一朵白蓮花。

壯實學數據技術07:元數據

01 什麼是元數據?

好吧,元數據爲什麼可以睥睨一切呢?因爲它是“元”數據。

啥是“元數據”——metadata?

壯實見到這個詞語,第一次流下了久別重逢的淚水,甚至有點想笑,莫非,元數據,是一位熟悉現代主義思潮的大佬起的名字?

壯實學數據技術07:元數據

好的,壯實先從人文視角解釋一下什麼叫做“元”。

元,依舊指的是原始、原初的意思。我們那元敘事、元數據、元小說給大家講講什麼是“元”。

1.“元”+“敘事”=元敘事

對於敘事的完整解釋,即對歷史的意義、經歷和知識的敘述

2.“元”+“數據”=元數據

有關於數據的數據

3.“元”+“小說”=元小說

元小說,作家自覺地暴露小說的虛構過程,產生間離效果,進而讓接受者明白,小說就是虛構,不能把小說當作現實。這樣,虛構在小說中也就獲得了本體的意義。

好吧,簡單來說,元就是這個東西原始的框架、元素。在現代主義大工業的背景下,人類一切進入了“秩序模式”,所以需要“元”。所以就有了萬物“元”化。

是的,大家是不是最近還會聽到一個詞,叫做“元認知”。沒什麼神奇的,套用概念,元認識就是關於認知的認知,也許善友老師“第一性原理”和叫獸“時間的朋友”或許是“元認知”?

壯實學數據技術07:元數據

那元數據,我們就好理解了,就是“關於數據的數據”,有了元數據,它可以讓我們的數據生產、使用更加秩序化。

數據生產,有的人會叫做“後臺元數據”:指導數據清洗裝載工作。

數據使用,有的人會分爲“前端元數據” :描述性、幫助我們更加流暢的使用報表和查詢工具。

對於元數據的分類,我們可以分爲以下三類:

業務元數據 從業務層面描述元數據。

技術元數據 數據技術層面上的各種統計信息,包含數據類型、長度、血緣沿襲、數據剖析結果等。

處理過程元數據 ETL自身執行結果統計信息,如多少行被加載、多少行數據被丟棄以及數據加載時間等。

02 元數據核心理念和關鍵要素

話不多說,我們來上阿里雲官方ppt:

好的,如果你們看不懂,壯實還畫了一個圖:

壯實學數據技術07:元數據

原來的數據生產-使用流程

壯實學數據技術07:元數據

涉及的相關的元數據

03 元數據產品

目前國內的元數據管理工具大概有三類。

一是像IBM、CA等公司都提供的專門工具,比如IBM收購Ascential得到的MetaStage,CA的DecisionBase;

二是像DAG的MetaCenter,開源產品Pentaho Metadata,它們不依託於某項BI產品,是一種第三方的元數據管理工具;

壯實學數據技術07:元數據

開源產品Pentaho Metadata示意圖

三是像普元、石竹這樣的集成商也有自己的元數據管理工具:普元MetaCube、新炬網絡元數據管理系統、石竹MetaOne等。

普元元數據驅動的微服務架構:

https://cloud.tencent.com/developer/article/1080067

https://cloud.tencent.com/developer/article/1080078

新炬網絡元數據管理系統:

http://www.shsnc.com/index.php?m=content&c=index&a=lists&catid=188

石竹MetaOne產品圖:
壯實學數據技術07:元數據

壯實學數據技術07:元數據

專門的元數據管理工具,對自家產品兼容較好,一旦涉及跨系統管理,就不盡如人意了。

04 元數據的功能和價值

如果你問我,元數據的功能和價值在哪裏?目前,業界開展了一些實踐:

  1、血緣分析:向上、向下表級、字段級別的追溯數據。血緣分析可以讓您輕鬆知道:“我正在查看的報告數據來源是什麼?”、“數據經過哪些轉換處理?”、“銷售額”從包含稅費更改爲不包括稅費,哪些下游字段受到了影響。血緣分析可以滿足許多行業(包括醫療、金融、銀行和製造業等)對所呈現數據的特殊監管及合規性要求。

 2、指標一致性分析:定期分析指標定義是否和實際情況一致。大佬會上對不齊數據是何等的尷尬。。。。

 3、實體關聯查詢:事實表與維度表的代理鍵自動關聯。

05 後記

打破一切:從人文後現代主義到數據後現代主義。

20世紀60年代,德國、法國、美國等出現了反西方近現代體系哲學傾向的思潮,學術上稱之爲“後現代主義”。你也許不知道啥是後現代主義,來一張圖感受一下:

壯實學數據技術07:元數據

對!就是達利的《記憶的永恆》。

後現代主義就是一種用無序反對有序,用個人囈語反對宏大敘事、用解構反對結構的一種精神。

當代美國活躍的後現代主義者之一格里芬就說:“如果說後現代主義這一詞彙在使用時可以從不同方面找到共同之處的話, 那就是,它指的是一種廣泛的情緒,而不是一種共同的教條———即一種認爲人類可以而且必須超越現代的情緒。”

所有理論的背後,都是這個時代的主流認知+情緒。數據也不例外。我們來看看《壯實學數據技術01》中的數據倉庫兩位大佬之爭,就知道人們在反覆橫跳在秩序和速度中。

壯實學數據技術07:元數據

所以,我們今天要考慮,元數據在今天的合理性是什麼?

在雜亂數據被管理起來之後,是不是在複雜、程式化上需要做做減法?

數據多≠信息多。如何把數據變爲信息,是每一個數據人需要持續思考的事情。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章