數據倉庫、數據集市、數據湖、數據中臺到底有什麼區別?

經常看到有人問這個問題,數據玩家也看過很多解釋,感覺都不夠直觀,這裏,我嘗試用一個大家都理解的例子來說明。

什麼是數據倉庫?

大家都去宜家買過東西吧,還記得一樓的大倉庫不,你如果看中了某個傢俱,想要自己去倉庫提貨,一般都會記下商品上的編碼:

這個編碼對於顧客來說,肯定是沒有任何含義的,看到這個編碼,不可能知道他是一個什麼商品。

但是這個編碼,對於倉庫管理員來說是有含義的,他們可以清楚的知道,是哪一個貨架,哪一個位置。

當然,顧客到倉庫裏順着貨架和位置也可以找到商品,但是總歸不太直觀,挑選的過程還是得在樓上進行。

因此數據倉庫就相當於宜家的一樓倉庫,在這裏,數據(傢俱)按照特定的模型,如FS-LDM等(貨架-位置)組織起來,這種模型,對於顧客(業務人員,數據最終用戶)是不友好的,但是對於科技人員(倉庫管理員,宜家員工)來說相對友好,因爲他按照一種更加集約化的規則將數據(傢俱)管理起來了,存放集中、規整,提取數據(提貨)不用跨庫(貨倉)尋找,查找的效率更加高。

那什麼是數據集市呢?

還是用這個例子,上文提到,數據倉庫對業務人員不是很友好,同樣,你總不能讓顧客直接逛倉庫吧?顧客的需求,是按照傢俱的種類分門別類,按照家庭的不同房間,組合在一起展示的,正如宜家樓上的展廳:

雖然也被吐槽像迷宮一樣,但是總的來說,購物體驗肯定比逛倉庫來得好多了。

所以,數據集市就像宜家樓上的展廳,正如其名字“集市”一樣,是一個面向最終用戶(顧客)的數據市場,在這裏,數據(傢俱)以一種更加容易被業務人員(顧客)接受的方式組合在一起,這些組合方式可能是多變的,因爲業務人員(顧客)的需求是多變的,因此我們需要定期調整集市的計算口徑(展廳的陳列方式),經常會創建新的數據集市(裝修新的展廳)。

數據倉庫和集市的概念理解了,其他一些相關問題也就迎刃而解,比如爲什麼有了數據倉庫還要建數據集市?等等。

那什麼是數據湖呢?

數據湖至今仍然沒有一個特別標準的概念,各種概念中,比較統一的一點是數據湖存儲的是未經加工的原始數據,包含結構化和非結構化的各類數據。數據玩家仍然嘗試用上面的例子來解釋。

大家都知道,宜家的傢俱是需要自己組裝的,所以宜家的顧客們都有一些動手能力,他們突發奇想,所有的傢俱能不能全部拆散成零部件存放,由顧客們根據實際需要挑選零部件自行拼裝?

所以,數據湖就是一個存儲了所有企業內原始數據(傢俱零部件)的存儲,這就帶來一系列問題,加工後數據的存儲已經非常複雜,原始數據則依賴更多的管理功能,不然數據又多又雜難以管理,數據湖會退化爲數據沼澤。此外,原始數據如果缺少統一的數據標準,就像不同的傢俱零部件之間的接口不同,那就無法組裝在一起了。

因此,數據湖必須有完善的數據管理功能,也依賴於統一的數據標準和良好的數據質量管理。

那什麼又是數據中臺呢?

數據中臺也沒有一個特別明確的定義,這裏很難套用宜家的例子強行解釋了,我們來看下各類數據平臺:

在我們傳統的數據應用中,隨着數據對於業務友好度的增加,其時效性也在減弱。而我們的目標,顯然是數據又快又好。既然各部門的需求都不一樣,爲何不讓業務自助分析數據呢?於是我們有了右上角的目標狀態。但是這個理想狀態和我們現在的數據應用中間有巨大的空隙,靠什麼來填補?答案就是數據中臺。

我們可以將其分爲狹義的數據中臺和廣義的數據中臺。狹義的數據中臺,指的是一套數據應用和工具,包括分佈式ETL、數據資產管理、數據標籤管理、數據沙箱、自助分析平臺、元數據管理、數據質量管理等等,底層則已現有的數倉、大數據平臺等爲數據源,爲企業提供數據資產管理的能力,並持續挖掘數據價值,持續提供數據智能服務。

廣義的數據中臺,則在狹義的數據中臺基礎之上,包含了頂層數據戰略,數據治理體系以及數據管理及運營、數據文化培養和組織架構支撐,是一套持續管理和運營的體系。

可以這麼說,狹義的數據中臺,是專爲達成數據中臺的使命而打造,一類是讓數據更快的處理、整合、加工,比如分佈式ETL工具。

隨着傳統數據被大數據平臺逐步替代,ETL工具對於大數據平臺的適配業需要與時俱進,支持分佈式計算、彈性計算,並且減少開發量

另一類是讓數據更好的產生業務價值,比如數據標籤管理,自助分析平臺等。數據標籤大家都在用,但是真正深度使用的企業都會感覺:建好容易用好難,如果沒有一套標籤管理系統,標籤是否重複加工,標籤的使用率、準確性等都無從掌控,業務部門想要針對近期營銷活動新建一個標籤,還得走開發流程,時效性也難以保證。

數據標籤管理系統就是爲了解決數據標籤的使用問題而建立。自助分析平臺則是方便業務人員自助進行數據分析、加工、探索的平臺,它與數據沙箱結合,直接將去隱私化的生產數據提供業務人員分析,使數據更快的產生價值,支撐關鍵決策。

廣義的數據中臺,則是輔助狹義數據中臺達成使命的機制,雖然看起來都很“虛”,但是卻是數據中臺成功落地的必要保障。

那所有這些都必須做嗎?

這個問題要看具體的企業情況,總的來說,一個大原則是以滿足業務發展爲第一優先,不要爲了做基礎設施而做基礎設施,一定要以能解決業務訴求爲最終目的。

《人月神話》裏早就宣告了銀彈不存在,自然,數據倉庫、數據集市、數據湖、數據中臺都不是銀彈,千萬不能以爲做了他們就水到渠成,數字化轉型就自動完成了。

簡言之,用了一系列時髦的新技術不見得就是數字化領軍企業,不用也不見得就是古典互聯網時代的落後作坊。關鍵是認清自身的數字化現狀,擬定數字化目標,制定數字化路徑,優選場景,實現價值。

新技術、各類數據基礎設施只是這條道路上,一套套切實可行的行動方案,是把過去銀行的種種數字化的嘗試,重新以體系化、結構化的方法論梳理,並且賦予當下最新的技術架構予以實施。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章