深度剖析數據中臺技術架構

智領雲聯合創始人&CTO,前EA(藝電)大數據平臺高級工程經理宋文欣博士再度直播開講,爲觀衆深度剖析了數據中臺的技術架構。

數據中臺的定義

在介紹數據中臺技術架構之前,宋文欣博士表示,在談到設計數據中臺建設需要的體系架構時,首先需要明確企業對數據中臺的需求以及數據中臺的定義。宋文欣認爲,數據中臺在一個企業的不同層面會有不同的需求。

從業務部門來看,數據中臺應該能夠高效地進行數據的採集和存儲,提供一系列的工具,讓業務部門可以很方便地去開發數據流水線、進行流式或者實時的數據處理,並把數據看板、BI報表等數據應用能夠方便地共享出來,還要能很方便地構建數據服務和模型服務,並通過API將服務開發出來。最關鍵的是,業務部門要能夠隨時自助地使用這些功能,不需要依賴企業的大數據部門,也不需要申請特別的資源,從而實現新功能的快速實現、驗證、迭代、共享和複用。

從管理層來看,數據中臺首先應該能夠實現數據產品的快速迭代。其次,數據中臺應該能夠避免各業務部門重複造輪子。第三,數據中臺要能夠提供完善的ROI管理,即企業在數據中臺建設過程中投入大量的時間和財力,投入產出比如何衡量。第四,在數據中臺的架構下,應該實現每個產品線的數字化運營標準,構建一個全方位的,覆蓋所有業務系統的數字化運營模式。最後,數據中臺必須有一個完善的數據標準及數據應用資產管理,打通各個業務線的數據,最大程度發揮數據價值,支持企業的重要決策。

基於以上兩方面的總結,宋文欣給出了數據中臺的定義:數據中臺是公司數字化運營的數據能力平臺,爲公司各個部門提供自助式的數據運營工具,同時在公司層面能夠管理數據能力的共享、抽象和複用。

數據中臺與大數據平臺

給出了數據中臺的定義以後,宋文欣又對大數據平臺和數據中臺做了比較。他表示,一個典型的大數據平臺具有大數據基礎的能力,在基礎組件上面會運行一套數據流水線,進行數據採集、數據處理、數據分析,再加上一些機器學習的能力。而數據中臺,其實是包含大數據平臺的,它們的不同主要體現在下面這張表上。數據中臺的建設其實就是要在一個包含大數據平臺的架構下,通過一系列工具和方法論,彌補大數據平臺的缺陷和侷限性,實現數據中臺的建設目標。

 

智領雲原生數據中臺架構

本次直播,宋文欣重點介紹了智領雲BDOS數據中臺架構。在具體解析智領雲數據中臺架構之前,宋文欣首先解釋了與智領雲數據中臺息息相關的雲原生的概念。雲原生包括了微服務和容器技術以及一套DevOps和CI/CD的流程,而智領雲數據中臺則是雲原生的數據中臺架構。

接着,宋文欣詳細介紹了智領雲的雲原生數據中臺架構。如上圖所示,整個架構的最底層是硬件資源層,在硬件資源層之上,左側是應用基礎能力平臺,右側是數據基礎能力平臺。其中,藍色標註的子系統,如數據基礎能力平臺,是智領雲技術團隊通過容器化集成到數據中臺中的。綠色標註的是智領雲技術團隊自主研發的子系統,而淺藍色部分是智領雲與合作伙伴合作開發的應用系統。

宋文欣強調了整個架構設計中一個很重要的方法論,就是全局的應用和數據管理。應用基礎能力平臺可以把所有應用的生命週期在一個統一的平臺管理起來。數據基礎能力層與應用基礎能力層是統一融合的,而在傳統的大數據平臺中,一般並沒有統一管理的應用基礎能力平臺。這兩個基礎能力的融合能夠以一種低門檻的方式爲用戶提供一個大數據應用的開發、集成和發佈的統一平臺,方便用戶進行數據能力的共享、抽象和複用。而數據應用管理平臺做的是全局的數據資產管理,能夠讓管理層、業務部門和數據分析部門,從一個全局的視角進行數據探索,進行全局的ROI管理,並提供一個全局的運營指標去評價數據中臺建設的價值。

總結起來,智領雲數據中臺BDOS的核心功能,首先是一個大數據容器雲平臺,把大數據及AI應用以統一的容器化方式運行在高效的雲平臺架構上。其次是數據應用資產管理,全局地管理數據及應用的目錄、元數據、版本管理等。此外還有數據應用集成,實現了系統自動配置所有的組件,提供單點登錄、多用戶支持、安全、監控報警等功能。BDOS還支持協同數據開發,針對於不同層次的數據分析人員和數據科學家都可以統一使用可配置的UI在一個系統中進行數據應用的開發、共享和複用。BDOS的數據集成中心支持多種及自定義數據集成引擎,可以很方便地進行工作流的管理,以及數據服務開放。最後,貫穿整個數據中臺有一個端到端的運維體系,提供全面高效的大數據運維支持,可以提升整個系統的可用性,降低查錯成本和時間。

在介紹完BDOS的整體架構和核心功能後,最後宋文欣又分別介紹了BDOS的各個子系統,包括BDOS數據集成開發平臺、全局的數據應用運營平臺、應用基礎能力平臺,並對每個子系統的整體架構、技術選型以及對數據中臺的意義都做了詳細的闡述。

篇幅所限,未能詳細介紹全部直播內容,如果讀者對本次直播的詳細內容感興趣,請在智領雲科技公衆號下回復關鍵字“PPT5下載”即可下載本次直播的PPT。

直播問答精選

 

1.Mesos和K8S誰更加優秀?

應該說它們雖然都是兩個雲計算的核心技術,但是其重點是不同層次的管理,K8S的優點在容器調度方面,在此框架上發佈容器應用非常方便,Mesos的優點在集羣管理,並已經在大規模集羣得到驗證。Twitter很早就在生產中管理萬臺主機的集羣,抖音用Mesos管理單集羣近十萬節點的集羣。而且目前來說,Mesos對大數據的分佈式應用支持也是比較成熟的,Spark的分佈式調度原生就是在Mesos上開發的。一個是分佈式資源管理以及有狀態服務的支持,一個是容器調度以及無狀態服務的管理,兩者各有長處。

 

2.數據中臺如果沒有沉澱行業數據,在產品落地中會遇到各種困難,無法構建其中的競爭力,如何看待這個問題?

我們的產品並不是一個開盒即用的數據中臺,主要是提供一個基礎架構。企業根據這個架構在其基礎上進行開發,並根據企業自己的狀態進行調整、實現。這個底層架構,基本上都是硅谷的高科技公司所採用,並作爲自己數據平臺的基礎,在數據中臺的建設中驗證是可行的。智領雲的工具可以幫助企業搭建自己的數據中臺、同時提供方法論的引導,從而進行數據抽象、共享、重建,最大限度的開發其數據價值。

 

3.在數據中臺中,開發的數據應用測試和業務應用測試有何不同?

業務應用,其運維排除是技術層面的。數據應用不僅僅是技術層面的,也很可能是數據本身的問題,要求開發數據應用的技術人員非常瞭解業務數據。在智領雲的平臺中,不僅提供代碼瀏覽,還提供數據瀏覽。

 

4.應用雲平臺爲什麼沒有選擇Helm,而是選擇Mesos?

Helm本身不能算一個雲平臺,它是用來管理K8S應用發佈的一個工具,我們在系統中也有用到Helm來發布應用,但是目前它提供的功能比較有限,主要比較適用於無狀態應用。我們自己的應用發佈系統要求對於有狀態和無狀態應用的發佈同時管理,比它的要求更復雜一點,所以我們可能會把Helm集成進來統一管理,但是目前還沒有應用到生產系統。

 

5.平臺底層哪些在物理機,哪些在虛擬機,哪些在容器中?

我們的底層可以是物理機,也可以是虛擬機,看客戶的預算和配置要求,這個對於我們的平臺是沒有影響的,主要是看客戶IaaS層運維和對大數據組件的要求。我們自己系統裏基本所有大數據基礎組件都在容器中(Ranger、Kafka、Spark等),但是有些組件的具體實施要看項目具體情況。例如HDFS這種存儲和網絡要求都比較密集的組件從原理上來講肯定是運行在物理機上比較好的,但是客戶有時候處於管理的需求還是想運行在虛擬機上,我們對兩種選項都是提供的。

 

6.多租戶在Hadoop集羣上爲多租戶分配資源,如何控制額度?

Hadoop上HDFS和Yarn都有自己的quota系統,配置資源還是比較簡單的。在Hadoop之外,智領雲系統內有一個全局性的資源管理系統,在應用資產管理系統中可以清晰看到。該系統是針對全局的、所有云資源的限額管理。

 

7.從業務價值上來說,數據中臺與大數據平臺、數據倉庫有什麼區別?

傳統的數倉對大型數據處理的瓶頸,導致誕生了大數據平臺。數據中臺的出現,是爲了解決傳統大數據平臺建設中的一些問題,例如重複開發、浪費資源、標準不統一、成本高、數據應用孤島等等。所以可以說數據中臺是合理建設大數據平臺的一種方式,從本質上來講和大數據平臺的目的是一樣的。我們一直在講,硅谷只有大數據平臺,沒有數據中臺,就是這個意思。如果要說數據中臺和我們所謂的傳統大數據平臺的業務價值上的差異,應該是說數據中臺能夠提供更快的市場反應速度,提高數據應用的開發效率。

 

8.數據血緣具體是如何實現的,應用級別、表、字段等級別如何體現?

DAAM中保留了元數據,可以在Hive中做分析器,抽取其中的元素(字段、表名等),清晰分析其上下游。我們的元數據管理還以圖的方式,保存在Neo4j中,直接展示其依賴關係。應用通過數據服務訪問數據,誰、哪個應用、通過哪個IP訪問哪個數據,並把這些關聯放入Neo4j中。可以把應用調度的關聯關係進行統一採集,存儲並展示,系統還支持對關聯關係的元數據進行採集。

 

9.傳統的大數據組件,無法對元數據進行分離、採集Ranger+K8S可以實現對每個SQL的審計嗎?

需要Plugin的支持,Ranger提供審計功能,有個審計的元數據寫入;K8S審計在對每個作業提交時需要keytab,並進行記錄。這些審計都是可以實現的。

 

10.數據基礎能力平臺是部署在物理機還是Cloud上?

可以部署在物理機上,但是現在很少這樣做,主要是因爲需要利用Cloud的優勢。

 

11.BDOS的典型案例中,甲方多還是數據服務人多,與同類產品的競爭優勢體現在哪裏?

我們在醫療、教育、司法等行業都有應用場景和案例,我們有兩類客戶:1.大數據應用的開發商,提供應用服務,在我們的產品上做二次開發,或者作爲合作伙伴進行合作開發。2.直接的甲方。在這類客戶上,我們的方式是扶上馬,帶一程,然後再讓其自己走,長期來講我們負責解決核心數據技術問題,客戶自己解決業務問題。

我們的數據中臺架構突出的是針對業務痛點,數據能力的快速落地,共享,複用,全局的管理。這裏面涉及到的全局管理,數據和應用的統一管理,協同開發的管理,都是比較重要的。作爲一個開放式系統,能夠給企業快速解決實際業務痛點,全局賦能,是我們平臺架構

智領雲聯合創始人&CTO,前EA(藝電)大數據平臺高級工程經理宋文欣博士再度直播開講,爲觀衆深度剖析了數據中臺的技術架構。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章