在業務增長過程中,每個企業不知不覺積累積累了一些數據。無論數據是多是少,企業都希望讓“數據說話”,通過對數據的採集、存儲、分析、計算最終提供對業務有價值信息。
由此,大數據平臺、數據中臺等新鮮的概念就真的落地了,其實數據類的概念都是相同的:報表、BI、數據倉庫...少了一個都玩不轉,只有每一個都做到極致,企業的數據價值才能得到提高。
先來說說背景吧,搭建大數據平臺離不開BI。在大數據之前,BI就已經存在很久了,簡單把大數據等同於BI,明顯是不恰當的。但兩者又是緊密關聯的,相輔相成的。
BI是達成業務管理的應用工具,沒有BI,大數據就沒有了價值轉化的工具,就無法把數據的價值呈現給用戶,也就無法有效地支撐企業經營管理決策;大數據則是基礎,沒有大數據,BI就失去了存在的基礎,沒有辦法快速、實時、高效地處理數據,支撐應用。
所以,數據的價值發揮,大數據平臺的建設,必然是囊括了大數據處理與BI應用分析建設的。
淘寶的大數據平臺
滴滴的大數據平臺
你可以看到,這些知名大廠的大數據平臺真的是大同小異,他們根據各自場景和技術棧的不同,雖然在大數據產品選型和架構細節上略有調整,但整體思路基本上都是一樣的。
再來說說數據中臺吧,厚平臺,大中臺,小前臺,沒有基礎厚實笨重的大數據平臺,是不可能構建數據能力強大、功能強大的數據中臺的。沒有大數據中臺,要迅速搭建小快靈的小前臺也只是理想化的。
數據平臺你可以把它看成是數據集,那麼數據中臺呢他就是數據集API,那麼它們之間就差在API這三個字母上,API我想應該不需要過多解釋呢,大家都知道,比如學JAVA的時候有了JAVA API你才知道怎麼使用,那麼數據中臺相當於在數據平臺的基礎上告訴你這些數據怎麼使用。
有數據中臺之前,我們根本就不清楚表的來源和鏈路,尤其是一些複雜報表的結果表,來源非常複雜可能涉及到多個系統,涉及十幾個源表。等到上游業務表要做變更、都不知道會影響哪些報表,線上已經運行上千個報表了啊!要去揪出這些來實在是麻煩!有了數據中臺之後,10秒鐘就能解決這個問題。
如果是公司需要進行大數據分析,那麼還要研究以下幾個問題:
爲什麼需要搭建大數據分析平臺?要解決什麼業務問題?需要什麼樣的分析?數據量有多少?是否有實時分析的需求?是否有BI報表的需求?
這裏舉一個典型的場景:
公司之前採用Oracle或MySQL搭建的業務數據庫,而且有簡單的數據分析,或者可能採購了BI系統,就是直接用業務系統數據庫進行支持的,現在隨着數據量越來越大,那麼就需要採用大數據技術進行擴容。
搞清楚需求之後,按照以下的步驟進行:
1、整體方案設計
- 數據量有多少:幾百GB?幾十TB?數據存儲在哪裏:存儲在MySQL中?Oracle中?
- 分析主題是什麼:只有幾個簡單指標?還是說有很多統計指標,需要專門的人員?
- 是否需要搭建整體數倉?
- 是否需要BI報表:業務人員有無操作BI的能力,或團隊組成比較簡單,不需要前後端人員投入,使用BI比較方便;
- 是否需要實時計算?
2、組件選型
架構設計完成後就需要組件選型了,這時候最好是比較資深的架構師參與設計,選型包括:
- 離線計算引擎:Hadoop、Spark
- 實時計算引擎:Storm、Flink
- BI軟件:FineBI
3、安裝部署
選型完成後,就可以進行安裝部署了,這部分其實是最簡單的,直接按照每個組件的部署要求安裝即可。
後文是對數據倉庫、大數據平臺、數據中臺的一些總結性的架構材料,也是對自己這些年來的一些彙總和思考吧,看懂了前面的文字,後面的各種架構圖也就無需贅述了。
1、數據倉庫硬件架構
2、數據倉庫功能架構
3、數據倉庫技術架構
4、第一個Hadoop平臺硬件架構
主要是爲了解決海量離線數據的計算和存儲,在Hadoop集羣中實現明細數據、彙總數據存儲,在mysql中實現報表數據存儲。
5、第一個流式處理平臺硬件架構
主要是爲了解決海量實時數據的流式採集和計算,在Hadoop集羣中實現明細數據、彙總數據存儲,在mysql中實現報表數據存儲;並通過實時事件處理集羣實現流式事件的匹配。
6、大數據平臺系統規劃
對於大數據平臺各種軟硬件各種組件的規劃
7、大數據平臺系統定位
8、大數據平臺邏輯部署架構
9、大數據平臺功能視圖
10、大數據平臺數據流向
11、大數據平臺整體硬件架構
12、數據中臺整體架構