10年大數據平臺經驗,總結出這份數據建設乾貨(內含多張架構圖)

在業務增長過程中,每個企業不知不覺積累積累了一些數據。無論數據是多是少,企業都希望讓“數據說話”,通過對數據的採集、存儲、分析、計算最終提供對業務有價值信息。

由此,大數據平臺、數據中臺等新鮮的概念就真的落地了,其實數據類的概念都是相同的:報表、BI、數據倉庫...少了一個都玩不轉,只有每一個都做到極致,企業的數據價值才能得到提高。

先來說說背景吧,搭建大數據平臺離不開BI。在大數據之前,BI就已經存在很久了,簡單把大數據等同於BI,明顯是不恰當的。但兩者又是緊密關聯的,相輔相成的。

BI是達成業務管理的應用工具,沒有BI,大數據就沒有了價值轉化的工具,就無法把數據的價值呈現給用戶,也就無法有效地支撐企業經營管理決策;大數據則是基礎,沒有大數據,BI就失去了存在的基礎,沒有辦法快速、實時、高效地處理數據,支撐應用。

所以,數據的價值發揮,大數據平臺的建設,必然是囊括了大數據處理與BI應用分析建設的。

10年大數據平臺經驗,總結出這份數據建設乾貨(內含多張架構圖)

淘寶的大數據平臺

10年大數據平臺經驗,總結出這份數據建設乾貨(內含多張架構圖)

滴滴的大數據平臺

你可以看到,這些知名大廠的大數據平臺真的是大同小異,他們根據各自場景和技術棧的不同,雖然在大數據產品選型和架構細節上略有調整,但整體思路基本上都是一樣的。

再來說說數據中臺吧,厚平臺,大中臺,小前臺,沒有基礎厚實笨重的大數據平臺,是不可能構建數據能力強大、功能強大的數據中臺的。沒有大數據中臺,要迅速搭建小快靈的小前臺也只是理想化的。

10年大數據平臺經驗,總結出這份數據建設乾貨(內含多張架構圖)

 

數據平臺你可以把它看成是數據集,那麼數據中臺呢他就是數據集API,那麼它們之間就差在API這三個字母上,API我想應該不需要過多解釋呢,大家都知道,比如學JAVA的時候有了JAVA API你才知道怎麼使用,那麼數據中臺相當於在數據平臺的基礎上告訴你這些數據怎麼使用。

有數據中臺之前,我們根本就不清楚表的來源和鏈路,尤其是一些複雜報表的結果表,來源非常複雜可能涉及到多個系統,涉及十幾個源表。等到上游業務表要做變更、都不知道會影響哪些報表,線上已經運行上千個報表了啊!要去揪出這些來實在是麻煩!有了數據中臺之後,10秒鐘就能解決這個問題。

10年大數據平臺經驗,總結出這份數據建設乾貨(內含多張架構圖)

 

如果是公司需要進行大數據分析,那麼還要研究以下幾個問題:

爲什麼需要搭建大數據分析平臺?要解決什麼業務問題?需要什麼樣的分析?數據量有多少?是否有實時分析的需求?是否有BI報表的需求?

這裏舉一個典型的場景:

公司之前採用Oracle或MySQL搭建的業務數據庫,而且有簡單的數據分析,或者可能採購了BI系統,就是直接用業務系統數據庫進行支持的,現在隨着數據量越來越大,那麼就需要採用大數據技術進行擴容。

搞清楚需求之後,按照以下的步驟進行:

1、整體方案設計

  • 數據量有多少:幾百GB?幾十TB?數據存儲在哪裏:存儲在MySQL中?Oracle中?
  • 分析主題是什麼:只有幾個簡單指標?還是說有很多統計指標,需要專門的人員?
  • 是否需要搭建整體數倉?
  • 是否需要BI報表:業務人員有無操作BI的能力,或團隊組成比較簡單,不需要前後端人員投入,使用BI比較方便;
  • 是否需要實時計算?

2、組件選型

架構設計完成後就需要組件選型了,這時候最好是比較資深的架構師參與設計,選型包括:

  • 離線計算引擎:Hadoop、Spark
  • 實時計算引擎:Storm、Flink
  • BI軟件:FineBI

3、安裝部署

選型完成後,就可以進行安裝部署了,這部分其實是最簡單的,直接按照每個組件的部署要求安裝即可。

後文是對數據倉庫、大數據平臺、數據中臺的一些總結性的架構材料,也是對自己這些年來的一些彙總和思考吧,看懂了前面的文字,後面的各種架構圖也就無需贅述了。

1、數據倉庫硬件架構

10年大數據平臺經驗,總結出這份數據建設乾貨(內含多張架構圖)

 

2、數據倉庫功能架構

10年大數據平臺經驗,總結出這份數據建設乾貨(內含多張架構圖)

 

3、數據倉庫技術架構

10年大數據平臺經驗,總結出這份數據建設乾貨(內含多張架構圖)

 

4、第一個Hadoop平臺硬件架構

主要是爲了解決海量離線數據的計算和存儲,在Hadoop集羣中實現明細數據、彙總數據存儲,在mysql中實現報表數據存儲。

10年大數據平臺經驗,總結出這份數據建設乾貨(內含多張架構圖)

 

5、第一個流式處理平臺硬件架構

主要是爲了解決海量實時數據的流式採集和計算,在Hadoop集羣中實現明細數據、彙總數據存儲,在mysql中實現報表數據存儲;並通過實時事件處理集羣實現流式事件的匹配。

10年大數據平臺經驗,總結出這份數據建設乾貨(內含多張架構圖)

 

6、大數據平臺系統規劃

對於大數據平臺各種軟硬件各種組件的規劃

10年大數據平臺經驗,總結出這份數據建設乾貨(內含多張架構圖)

 

7、大數據平臺系統定位

10年大數據平臺經驗,總結出這份數據建設乾貨(內含多張架構圖)

 

8、大數據平臺邏輯部署架構

10年大數據平臺經驗,總結出這份數據建設乾貨(內含多張架構圖)

 

9、大數據平臺功能視圖

10年大數據平臺經驗,總結出這份數據建設乾貨(內含多張架構圖)

 

10、大數據平臺數據流向

10年大數據平臺經驗,總結出這份數據建設乾貨(內含多張架構圖)

 

11、大數據平臺整體硬件架構

10年大數據平臺經驗,總結出這份數據建設乾貨(內含多張架構圖)

 

12、數據中臺整體架構

10年大數據平臺經驗,總結出這份數據建設乾貨(內含多張架構圖)

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章