一篇文章搞懂 數據海洋 數據湖 數據池 數據水坑 數據孤島 數據倉庫 基本概念

在這裏插入圖片描述
一。數據湖
由數據驅動的決策非常流行。從數據科學,機器學習和高級分析到實時儀表板,決策者都需要數據來幫助做出決策。
該數據需要一個家,而數據湖是創建該家的首選解決方案。該術語由Pentaho的CTO James Dixon發明並首次描述,他在博客中寫道:“如果您將數據集市視爲瓶裝水的存儲庫,經過清洗,包裝和結構化以便於使用,那麼數據湖就很大了。水體處於更自然的狀態。數據湖的內容從源頭流入整個湖中,並且該湖的各種用戶可以來檢查,潛水或取樣。”斜體關鍵點是:數據在原始數據中格式和格式(自然或原始數據)。
數據由各種用戶使用,即由大型用戶社區訪問和訪問。

企業大數據湖彌合了現代互聯網公司隨心所欲的文化之間的鴻溝,在現代文化中,數據是所有實踐的核心,每個人都是分析師,大多數人都可以編寫和滾動自己的數據集,而企業數據倉庫則以數據爲代表。 貴重商品,由專業的IT人員精心照管,並以精心準備的報告和分析數據集的形式提供。

爲了成功,企業數據湖必須提供三個新功能:
1.經濟高效,可擴展的存儲和計算功能,因此可以存儲和分析大量數據,而不會產生高昂的計算成本
2.經濟高效的數據訪問和治理,因此每個人都可以查找和使用正確的數據,而不會因編程和手動臨時數據獲取而造成昂貴的人力成本。
3.分層,受控制的訪問權限,因此可以根據不同用戶的需求和技能水平以及適用的數據治理策略爲不同的用戶提供不同級別的數據.

數據湖成熟度:數據湖是一個相對較新的概念,因此定義您可能會觀察到的某些成熟階段並清楚地闡明這些階段之間的差異非常有用:數據水坑基本上是建立的單一目的或單一項目數據集市使用大數據技術。它通常是採用大數據技術的第一步。數據水坑中的數據是出於單個項目或團隊的目的而加載的。它通常是衆所周知的,並且被人們所理解,使用大數據技術代替傳統數據倉庫的原因是爲了降低成本並提供更好的性能。
數據池是數據水坑的集合。它可能像設計不良的數據倉庫,實際上是同一位置的數據集市的集合,或者可能是現有數據倉庫的卸載。雖然較低的技術成本和更好的可伸縮性是顯而易見的誘人好處,但是這些結構仍需要很高的IT參與度。此外,數據池僅將數據限制爲項目所需的數據,並且僅將數據用於需要它的項目。鑑於高昂的IT成本和有限的數據可用性,數據池並不能真正幫助我們實現使數據使用民主化或推動業務用戶自助服務和數據驅動型決策的目標。
數據湖在兩個重要方面不同於數據池。首先,它支持自助服務,使業務用戶能夠查找和使用他們想要使用的數據集,而不必依賴IT部門的幫助。其次,它旨在包含業務用戶可能需要的數據,即使當時沒有任何項目需要它。
數據海洋將自助數據和數據驅動的決策擴展到所有企業數據,無論它在哪裏,無論是否將其加載到數據湖中。
圖1­1說明了這些概念之間的區別。隨着成熟度從水坑到池塘到從湖泊到海洋的增長,數據量和用戶數量都在增長,有時會非常大。使用模式已從高度接觸的IT參與之一轉變爲自助服務,並且數據的擴展範圍超出了立即項目所需的範圍。

在這裏插入圖片描述

二.數據倉庫:
數據倉庫,英文名稱爲Data Warehouse,可簡寫爲DW或DWH。數據倉庫,是爲企業所有級別的決策制定過程,提供所有類型數據支持的戰略集合。它是單個數據存儲,出於分析性報告和決策支持目的而創建。 爲需要業務智能的企業,提供指導業務流程改進、監視時間、成本、質量以及控制。

1、數據倉庫是面向主題的;操作型數據庫的數據組織面向事務處理任務,而數據倉庫中的數據是按照一定的主題域進行組織。主題是指用戶使用數據倉庫進行決策時所關心的重點方面,一個主題通常與多個操作型信息系統相關。
2、數據倉庫是集成的,數據倉庫的數據有來自於分散的操作型數據,將所需數據從原來的數據中抽取出
數據倉庫的核心工具
數據倉庫的核心工具
來,進行加工與集成,統一與綜合之後才能進入數據倉庫;
數據倉庫中的數據是在對原有分散的數據庫數據抽取、清理的基礎上經過系統加工、彙總和整理得到的,必須消除源數據中的不一致性,以保證數據倉庫內的信息是關於整個企業的一致的全局信息。
數據倉庫的數據主要供企業決策分析之用,所涉及的數據操作主要是數據查詢,一旦某個數據進入數據倉庫以後,一般情況下將被長期保留,也就是數據倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。
數據倉庫中的數據通常包含歷史信息,系統記錄了企業從過去某一時點(如開始應用數據倉庫的時點)到當前的各個階段的信息,通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。
3、數據倉庫是不可更新的,數據倉庫主要是爲決策分析提供數據,所涉及的操作主要是數據的查詢;
4、數據倉庫是隨時間而變化的,傳統的關係數據庫系統比較適合處理格式化的數據,能夠較好的滿足商業商務處理的需求。穩定的數據以只讀格式保存,且不隨時間改變。
5、彙總的。操作性數據映射成決策可用的格式。
6、大容量。時間序列數據集合通常都非常大。
7、非規範化的。Dw數據可以是而且經常是冗餘的。
8、元數據。將描述數據的數據保存起來。
9、數據源。數據來自內部的和外部的非集成操作系統。
數據倉庫,是在數據庫已經大量存在的情況下,爲了進一步挖掘數據資源、爲了決策需要而產生的,它並不是所謂的“大型數據庫”。數據倉庫的方案建設的目的,是爲前端查詢和分析作爲基礎,由於有較大的冗餘,所以需要的存儲也較大。爲了更好地爲前端應用服務,數據倉庫往往有如下幾點特點:
1.效率足夠高。數據倉庫的分析數據一般分爲日、周、月、季、年等,可以看出,日爲週期的數據要求的效率最高,要求24小時甚至12小時內,客戶能看到昨天的數據分析。由於有的企業每日的數據量很大,設計不好
的數據倉庫經常會出問題,延遲1-3日才能給出數據,顯然不行的。
2.數據質量。數據倉庫所提供的各種信息,肯定要準確的數據,但由於數據倉庫流程通常分爲多個步驟,包括數據清洗,裝載,查詢,展現等等,複雜的架構會更多層次,那麼由於數據源有髒數據或者代碼不嚴謹,都可以導致數據失真,客戶看到錯誤的信息就可能導致分析出錯誤的決策,造成損失,而不是效益。
3.擴展性。之所以有的大型數據倉庫系統架構設計複雜,是因爲考慮到了未來3-5年的擴展性,這樣的話,未來不用太快花錢去重建數據倉庫系統,就能很穩定運行。主要體現在數據建模的合理性,數據倉庫方案中多出一些中間層,使海量數據流有足夠的緩衝,不至於數據量大很多,就運行不起來了。
從上面的介紹中可以看出,數據倉庫技術可以將企業多年積累的數據喚醒,不僅爲企業管理好這些海量數據,而且挖掘數據潛在的價值,從而成爲通信企業運營維護系統的亮點之一。
廣義的說,基於數據倉庫的決策支持系統由三個部件組成
:數據倉庫技術,聯機分析處理技術和數據挖掘技術,其中數據倉庫技術是系統的核心,在這個系列後面的文章裏,將圍繞數據倉庫技術,介紹現代數據倉庫的主要技術和數據處理的主要步驟,討論在通信運營維護系統中如何使用這些技術爲運營維護帶來幫助。
4.面向主題
操作型數據庫的數據組織面向事務處理任務,各個業務系統之間各自分離,而數據倉庫中的數據是按照一定的主題域進行組織的。主題是與傳統數據庫的面向應用相對應的,是一個抽象概念,是在較高層次上將企業信息系統中的數據綜合、歸類並進行分析利用的抽象。每一個主題對應一個宏觀的分析領域。數據倉庫排除對於決策無用的數據,提供特定主題的簡明視圖。

三。數據沼澤(The Data Swamp):
沒有足夠的信息,很難區分湖泊中的數據。它不再是沼澤,而是泥坑。一切看起來都一樣,您無法分辨出好消息還是壞消息。
清理湖面並不是要使湖面看起來更加井井有條,而是要使湖面看起來平整無奇,而是讓湖面看起來像沼澤一樣。當然,我們不能回到模型中,在所有模型都可用之前必須對其進行完整描述,就像許多數據倉庫一樣(而且我們都知道故事的結局)。取而代之的是,在人們最初使用該數據時收集其元數據並不斷收集更多信息的過程是確保靈活性並抓住重用和共享機會的最佳方法。
這種方法還可以確保瞭解數據的人(因爲他們生產和使用數據)描述和記錄有關數據的信息。人們之所以願意這樣做,是因爲他們看到了價值,因爲有了這些信息,也可以更輕鬆地查找和使用湖泊中的數據。因此,這是一次公平的交流:輕鬆訪問有關數據的知識以及如何使用它們。目前,這是唯一可以自然擴展的可行方法。
許多技術有望解決數據沼澤問題。儘管它們確實解決了問題的各個方面,但主要的挑戰是確保可以看到數據集的真實性,而不是將其隱藏在看似平靜的表面之下。爲了應對這一挑戰,組織必須使他們的數據在湖泊中可見,並將發現數據的過程(通過數據目錄)與收集有關數據的信息的過程聯繫起來。沒有這種聯繫,數據湖可能看起來很平靜,但是它將是一片毫無特色的廣闊區域,而不是豐富多樣的景觀。

四。數據集市:data marts
數據集市(Data Mart) ,也叫數據市場,數據集市就是滿足特定的部門或者用戶的需求,按照多維的方式進行存儲,包括定義維度、需要計算的指標、維度的層次等,生成面向決策分析需求的數據立方體。 從範圍上來說,數據是從企業範圍的數據庫、數據倉庫,或者是更加專業的數據倉庫中抽取出來的。數據中心的重點就在於它迎合了專業用戶羣體的特殊需求,在分析、內容、表現,以及易用方面。數據中心的用戶希望數據是由他們熟悉的術語表現的。

數據集市就是企業級數據倉庫的一個子集,他主要面向部門級業務,並且只面向某個特定的主題。爲了解決靈活性與性能之間的矛盾,數據集市就是數據倉庫體系結構中增加的一種小型的部門或工作組級別的數據倉庫。數據集市存儲爲特定用戶預先計算好的數據,從而滿足用戶對性能的需求。數據集市可以在一定程度上緩解訪問數據倉庫的瓶頸。

1.數據集市的特徵包括規模小。
2.有特定的應用。
3.面向部門。
4.由業務部門定義、設計和開發。
5.業務部門管理和維護。
6.能快速實現。
7.購買較便宜。
8.投資快速回收。
9.工具集的緊密集成。
10.提供更詳細的、預先存在的、數據倉庫的摘要子集。
11.可升級到完整的數據倉庫。

五。數據水坑(Data Puddles):
數據水坑通常是爲小型團隊或專門用例而構建的。這些“水坑”是單個團隊擁有的中等規模的數據集合,通常由業務部門使用影子​​IT在雲中構建。在數據倉庫時代,每個團隊都習慣於爲其每個項目構建一個關係數據集市。除了使用大數據技術外,構建數據水坑的過程非常相似。通常,數據水坑是爲需要大數據的功能和規模的項目構建的。許多高級分析項目,例如那些關注客戶流失或預測性維護的項目,都屬於此類。
有時,構建數據水坑是爲了幫助IT人員進行自動化的計算密集型和數據密集型流程,例如提取,轉換,加載(ETL)卸載,這些將在後面的章節中詳細介紹,在這些章節中,所有轉換工作都從數據倉庫或倉庫中轉移。昂貴的ETL工具到大數據平臺。另一個常見用途是通過提供一個稱爲“沙箱”的工作區域爲單個團隊提供服務,數據科學家可以在其中進行實驗。
數據水坑通常範圍較小,數據種類有限-它們由小型專用數據流填充,並且構建和維護它們需要技術團隊或IT部門的大力參與。
數據池(Data Ponds):數據池是數據水坑的集合。正如您可以將數據池視爲使用大數據技術構建的數據集市一樣,您也可以將數據池視爲使用大數據技術構建的數據倉庫。隨着更多的水坑被添加到大數據平臺,它可能有機地存在。創建數據池的另一種流行方法是將數據倉庫卸載。
與ETL卸載不同,ETL卸載使用大數據技術來執行填充數據倉庫所需的一些處理,此處的想法是將數據倉庫中的所有數據加載到大數據平臺中。願景通常是最終擺脫數據倉庫以節省成本並提高性能,因爲大數據平臺比關係數據庫便宜得多且可伸縮性更高。但是,僅卸載數據倉庫並不能使分析人員訪問原始數據。由於仍然保持適用於數據倉庫的嚴格體系結構和治理,因此組織無法解決數據倉庫的所有挑戰,例如冗長而昂貴的變更週期,複雜的轉換以及將人工編碼作爲所有報告的基礎。最後,分析人員通常不喜歡從具有閃電般快速查詢的精細數據倉庫遷移到可預測性差得多的大數據平臺,在該平臺上,大批查詢的運行速度可能比數據倉庫中的運行速度快,但更典型的小型查詢可能需要幾分鐘的時間。圖1–3說明了數據池的一些典型侷限性:缺乏可預測性,敏捷性以及無法訪問未經處理的原始數據。

六. 數據孤島(data silos):
企業發展到一定階段,出現多個事業部,每個事業部都有各自數據,事業部之間的數據往往都各自存儲,各自定義。每個事業部的數據就像一個個孤島一樣無法(或者極其困難)和企業內部的其他數據進行連接互動。”我們把這樣的情況稱爲數據孤島。簡單說就是數據間缺乏關聯性,數據庫彼此無法兼容。
專業人士把數據孤島分爲物理性和邏輯性兩種。物理性的數據孤島指的是,數據在不同部門相互獨立存儲,獨立維護,彼此間相互孤立,形成了物理上的孤島。邏輯性的數據孤島指的是,不同部門站在自己的角度對數據進行理解和定義,使得一些相同的數據被賦予了不同的含義,無形中加大了跨部門數據合作的溝通成本。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章