開源大數據平臺 E-MapReduce Serverless StarRocks 產品介紹

摘要:本文將分享阿里雲與 StarRocks 社區合作打造的雲上 StarRocks 極速湖倉的雲原生產品實踐。主要包括四個部分,第一部分介紹 StarRocks 全託管形態,以及免運維服務的 OLAP 雲產品;第二部分介紹 StarRocks Manager 的實例管理、診斷分析、元數據管理、安全中心等功能;第三部分介紹在社交、在線教育、電商等場景的使用案例;最後是對產品的長短期規劃:
1.StarRocks 產品介紹
2.StarRocks 功能介紹
3.StarRocks 場景案例
4.StarRocks 未來規劃

一、StarRocks 產品介紹

阿里雲與 StarRocks 社區從2022年初開始以半托管的形態合作。現有大概200客戶已經在用半托管的 StarRocks 產品。今年開始做全託管的產品形態,希望幫助大家更進一步降低管理、使用門檻,也配合社區將產品推向更多的 OLAP 用戶。

EMR Serverless StarRocks 是 StarRocks 在阿里雲上的一個全託管服務,結合 StarRocks 自身極速和統一的特性,重點圍繞降低門檻和降低運維複雜度這兩個目標,爲客戶提供了更多的能力。

易用性方面,在 Serverless 的形態下,提供了全託管、免運維的服務,大家不用再去擔心 StarRocks 集羣的穩定性,比如日常使用中宕機等問題。在數據管理方面,提供了易用的慢 SQL 分析和集羣健康診斷,便捷的導入任務管理,以及可視化的元數據管理。

結合阿里雲上的一些產品,集成了雲原生的能力。首先是集成了底層資源,結合K8S,實現了即開即用,僅需三四分鐘,即可完成一個集羣的快速創建。並且提供了後續高效擴縮容、升降配的能力,實現了資源的快速交付。另外,與 DLF 深度集成,實現了整個雲上數據湖體系的打通。與 Flink VVP 深度集成,進一步降低開發成本。

上圖展示了 EMR 產品體系。本次介紹重點在 OLAP 部分。StarRocks 是 EMR 推出的第一個全託管形態,接下來還會有 Serverless Doris,以及 Presto 等更多的全託管形態,幫助用戶低門檻地去使用大數據的技術棧。

利用 StarRocks 我們可以構建極速統一的新一代數據架構,在分析層可以通過 StarRocks 統一 OLAP 引擎,覆蓋所有 OLAP 場景,這樣可以技術棧統一,一份技術及運維,多種 OLAP 分析場景都可以適用。

StarRocks 系統架構如上圖所示,整個系統的核心就是 FE(Frontend)和BE(Backend)。

EMR 全託管主要是圍繞K8S的佈署形態,半托管主要是圍繞 ECS 的佈署形態。半托管,主要提供快速部署的能力,包括監控、告警等基礎集羣管理能力。全託管更上一層,對於FE、BE自身的服務管理也去託管,這樣用戶就可以不用關心計算資源這一層的運維和管理。更進一步,期望將平臺運維能力,包括擴縮容、集羣監控告警等,都進行全託管,從而幫助用戶省去更多的運維成本。全託管提供的能力一方面是全方位的服務免運維,另一方面是自動升級的能力。還有一些 Manager 的能力,更好地管理數據,包括導入任務、元數據、權限等。

二、StarRocks 功能介紹

實例管理

實例管理,主要是快速解決集羣在全託管形態下的部署能力和監控能力,是最基礎的能力。並且可以更好地實現自動化升級。另外,提供了可視化配置的能力,以及一些監控和告警規則的模板。

診斷與分析

在日常數據查詢或數據應用的過程中經常會碰到 SQL 慢的問題,需要分析其原因,並找到相應的解決方案。EMR StarRocks Manager 提供了可視化的 SQL 診斷分析能力,可以幫助用戶快速找到根因。

元數據管理

目前元數據管理只提供了一個比較基本的能力,即展示了表的內容。後續會實現更多更細粒度的功能,比如關於導入任務的、關於物化視圖的、關於外表管理的能力等等。

安全中心

當前在 Serverless 版本里提供了一個基礎的用戶基本管理以及庫級別的權限控制。因爲3.0要做一個社區的權限重構,所以計劃會在3.0發佈之後去做一個更細粒度的權限控制。

版本功能說明

以下表格中列出了 EMR StarRocks 不同版本功能的差別。

內核層面基本上是保持一致的。個別功能,比如數據湖查詢的一些場景下,在迭代節奏上,因爲與阿里雲內部產品適配會更快一些,所以阿里雲的版本推出得更快一些,但最終也都會貢獻到社區。Flink VVP CTAS 這種場景,因爲跟Flink之間是一個特殊定製的版本,所以無法貢獻到社區。

實例運維管理方面,全託管版本提供的可視化、免運維能力範圍會更廣一些。前文介紹的 Manager 的一些能力,比如可視化數據庫/表管理、慢 SQL 分析等,目前也只能在 Serverless 的版本里用到。

三、StarRocks 場景案例

四、StarRocks 未來規劃

EMR Serverless 版本從今年一月份開始邀測,當時只具備了一些基本能力。從4月10號開始公測之後發佈了更多的能力。

Q2的計劃,一個是商業化發佈,另一個是圍繞 DLF 湖倉分析的場景,去做更多的增強,因爲在湖倉分析對計算資源的要求更加靈活,所以需要按量付費以及彈性的一些能力。另外,會去提供實例的健康檢查,幫助大家快速定位到集羣有問題的地方。圍繞 Manager,實現物化視圖的管理能力,雖然目前物化視圖的使用還不多,但隨着3.0的發佈,存算分離架構發佈之後,物化視圖會使用得越來越多。還有數據導入管理,以及 SQL Editor 等等。

Q3,在3.0存算分離發佈之後,期望能夠圍繞 Iceberg、Hudi 等湖格式直接應用整個大數據場景,可以使用物化視圖以及湖格式的一些能力,兩者結合,去快速實現 LakeHouse 的場景。另外,還有重構權限模型,以及 MaxCompute 集成等。

Q4,會在實例的備份和恢復,以及實例遷移方面,增強易用性和產品化。並繼續對已有功能做更深層的優化和迭代。

以上就是今年的一個整體規劃,當然還會結合客戶具體場景需求去做調整。

原文鏈接

本文爲阿里雲原創內容,未經允許不得轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章