基於元數據驅動的ETL

2016-07-03 朱潔 

 

元數據的定義元數據(Metadata),爲描述數據的數據(data about data),主要是描述數據屬性(property)的信息,用來支持如指示存儲位置、歷史數據、資源查找、文件記錄等功能。

 

ETL的定義

ETL,是英文 Extract-Transform-Load 的縮寫,用來描述將數據從來源端經過抽取(extract)、轉換(transform)、加載(load)至目的端的過程。ETL一詞較常用在數據倉庫,但其對象並不限於數據倉庫。

 

ETL是構建數據倉庫的重要一環,用戶從數據源抽取出所需的數據,經過數據清洗,最終按照預先定義好的數據倉庫模型,將數據加載到數據倉庫中去。

 

數據不符合分析的要求,所以要準備數據,這個過程就叫ETL。

 

基於元數據驅動的價值

可以統一數據資產,獲取企業數據全局視圖。一個好的元數據管理工具,對企業全系統的數據在哪裏,都有哪些數據,有一個全局觀。缺失元數據管理工具,就只能靠人員經驗,誰也說不清楚數據來源,以及作用。

 

簡化etl過程,通過元數據可以構建自動工具,自動基於元數據通過簡單的UI操作就可以實現etl過程。簡化etl代碼編寫過程並且etl過程也可以大量的複用。

 

基於元數據驅動的難點

元數據管理難。數據變化快,傳統手工配置的方法很難保證一致性而且是一個工作量巨大的工作。元數據就是企業多數據字典,維護一個完整的元數據,就類似編字典。

 

 

涉及到語義管理,不同的表,不同名稱的字段,可能是同一含義。相同名稱的字段也可能含義不一樣,還涉及版本變化。

 

 

所以這個工作是個技術+管理的工作。業界有很多公司在思考怎麼降低元數據管理難度,所以有利用機器學習自動識別元數據的共識,例如tamr,華傲數據等等。

 

 

另外,元數據不僅是etl的基礎,也是數據質量/數據治理的基礎。

 


 

 

 

 

 
 

微信掃一掃
關注該公衆號

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章