數據中臺和數倉的關係

轉載聲明

本文大量內容系轉載自以下文章,有刪改,並參考其他文檔資料加入了一些內容:

1 傳統數倉

傳統數倉有幾個特點:

  • 數據具有歷史性

  • 基於文件存儲

  • 以表爲形態,自帶元數據存儲(比如Hive)

  • 在數倉的數據是其他數據的拷貝或者拷貝的加工
    傳統數倉需要拷貝數據的重要原因是因爲基於數據和存儲需要儘可能的近。所以我們需要把MySQL等數據源的數據同步到數倉,才能進行進一步處理。

    另外傳統數倉更關注的是數據的歷史狀態,所以導致數據規模龐大。 數倉本身也具備計算能力,同時也可以作爲存儲供其他計算系統使用。

2 數據中臺

數據中臺設計立足點本身是數據和存儲分離的。那就意味着,數據中臺本身並沒有數據,數據來源是其他的的,比如傳統數倉,業務數據庫,用戶在中臺上傳的文件(臨時使用),各個業務系統的API(瞬時,我們不關心API之前的數據結果是什麼樣的)。因爲數據中臺擁有這些數據源的適配器,所以相當於建立了互聯管道。

我們知道數倉的優勢是有元數據,通過表的方式很好的規整了數據。數據需要加工,所以一般數倉是有分層的,往上走一層,數據信息損耗就高一些。**數據中臺也有一個全局的元數據管理系統,管理也是以表爲主,粒度到字段級別。**數據中臺這個元信息包含了各個子存儲的元信息,以數據中臺需要的形態進行組織。

數據中臺的元數據其中承載的一個重要功能是數據地圖,雖然在數據中臺中,修建了通往所有數據的道路,但是當用戶進來的時候 他無法知道具體某個數據的地址 也就沒辦法利用這些修好的道路。數據地圖就是解決這個問題 我們需要結合自然語言處理,檢索技術,目錄分類技術,機器學習以及數據規範化來幫助找到數據地址。數據地址從來都不是面向人類有好的。

通過數據中臺的數據地圖,以及數據中臺到各數據源的建立好的管道,那麼我們就可以很好的找到我們要的數據以及對他們進行關聯和處理,分析,甚至進一步成爲機器學習的素材。

數據地圖和傳統數倉元數據的區別在於:

  • 它記錄了散落在各個孤島的數據,而不像傳統數倉,只是在自己的數據。
  • 數據格式是異構的,不僅僅是文件。
  • 他不僅僅存儲表以及字段相關信息,同時還讓這些信息可檢索,可查詢,可以更好的面向人而不是機器。

3 結論

數倉是數據中臺的一個重要組成部分,也是元數據的一個重要來源,但是隨着技術的發展,數據和存儲必定是分離的,這就需要一個新的元信息系統(數據地圖)來進行承載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章