爲什麼說雲原生數據湖正在成爲首選?

“因爲疫情的原因,銀行業務線上化、數字化的趨勢明顯加快,基於數據驅動的業務場景不斷湧現,業務變化多、彈性大、需要快速響應,數據量大、類型豐富,所以我們開始藉助雲原生數據湖服務實現對各類業務的快速支持。”一個城商行數據部主任去年向大數據在線如是說。

的確,隨着千行百業數字化轉型的深入,數據已經成爲最重要的生產要素,猶如數字化時代的“石油”。不過,就像石油需要經過開採、精煉一樣,數據要想挖掘其價值,也需要經過採集、匯聚、挖掘和分析,最終在各種應用場景中創造出價值。

所以用戶近年來對於數據湖的理念、產品和方案愈發接受,加上雲計算的日漸普及,雲原生數據湖服務正在獲得越來越多用戶的青睞,成爲用戶挖掘數據價值的首選。

雲與數據湖爲何是最佳CP

在過去,很多企業的數據以ERP、CRM數據爲主,數據規模往往是TB級,企業通常在本地採用昂貴的數據倉庫解決方案來存儲和分析數據,這種方式模型範式固定,底層數據無法做到多樣變化,逐漸跟不上企業業務變化的速度。

今天,在5G、物聯網、人工智能等技術的驅動下,多個行業用戶的數據量達到PB級,並且數據類型豐富,除了ERP等數據外,還有大量像文檔、視音頻、行爲數據等非結構化和半結構化數據,業務對於數據分析的及時性也愈發苛刻,這使得很多用戶將目光瞄準了雲端。

雲計算擁有極爲靈活、彈性和可擴展的計算存儲資源,使得數據的存儲、分析和應用變得無比容易;而數據湖最大的價值在於將企業內各種格式的數據統一匯聚,在一份數據之上進行多種分析,高性價比且高效的挖掘數據價值。有專家甚至直言,以數據湖爲底座的數據平臺正在成爲企業數字化轉型的核心。

爲什麼說雲原生數據湖正在成爲首選?

 

事實上,真正讓數據湖發揮價值與作用的恰恰是雲計算。自2010年數據湖概念被提出以來,雲服務商將數據湖概念推向落地並且大獲成功。雲計算的分佈式架構和對於開源技術體系的支持,可以讓企業及時採用當下快速變化的數據技術,另外也有利於數據湖與機器學習、AI等技術服務集成,形成數據價值實現的閉環。以華爲云云原生數據湖MRS服務爲例,經歷多年發展,已經廣泛應用於公用事業、金融、運營商、醫療等行業3000+政企,成爲雲原生數據湖的突出代表。

那麼,數據湖在經歷十年的發展之後,會在雲計算時代呈現出哪些新的趨勢?我們從華爲云云原生數據湖MRS四大核心能力和最近三大新特性中一見端倪。

數據湖再進化

回首數據湖過去十年,正是數據湖產品、技術和商業模式不斷探索與落地之路。在這十年裏,開源廠商、傳統存儲廠商和雲服務商紛紛加入到數據湖的推廣與落地之中。最終,雲服務商們脫穎而出,推動着數據湖持續進化。

以華爲云云原生數據湖MRS爲例,其除了之前Hadoop生態的Spark、Flink、Kafka、HBase等各種高性能組件之外,持續添加像人工智能、數智融合元數據、緩存加速、跨源跨域分析等新能力,不斷拓展數據分析的邊界;並且同時支持混合雲和公有云兩種形態;更加重要的是,雲原生數據湖MRS豐富的組件和豐富的數據生態有機結合,爲開發者提供廣泛的選擇,可以讓客戶在公有云快速構建高性價比、靈活開放、安全可靠的一站式大數據平臺。

爲什麼說雲原生數據湖正在成爲首選?

 

事實上,華爲云云原生數據湖MRS之所以能夠引領數據湖的發展趨勢,離不開其在諸多行業、不同用戶的真實場景中的錘鍊,通過各種需求趨勢的洞察實現各種核心能力的不斷提升。以近年來熱門的“數據上雲”爲例,雲原生數據湖MRS等服務就承接了華爲大數據全面上雲,經歷了內部複雜、大體量業務的高壓錘鍊,像支持華爲終端雲觸達全球7億用戶、PB級數據處理量和20000+大數據節點,對於產品服務不斷成長都極具價值。

如今,華爲云云原生數據湖MRS經過內部和全球客戶交付的錘鍊,已經形成企業級、易運維、高安全、低成本四大核心能力。

  • 首先是企業級,基於華爲FusionInsight大數據企業級平臺能力,歷經行業數萬節點部署量的考驗,提供企業級調度實現不同作業之間的資源隔離,提供多級用戶SLA保障。
  • 其次是易運維,用戶無需關注硬件的購買和維護。專門研發的企業級集羣管理系統,可讓用戶更好監控和管理大數據平臺;並可通過短信/郵件的方式,提醒用戶平臺異常。
  • 第三是高安全,經由華爲專業的安全團隊和德國PSA安全認證測試,提供雲上高安全的大數據服務。基於Kerberos認證,實現了基於角色的安全控制以及完善的審計功能。
  • 第四則是易用運維,基於多樣化的雲基礎設施,提供了豐富的計算、存儲設施的選擇,MRS集羣可以用時再創建、用時再擴容,用完就可以銷燬、縮容,確保成本最優。

事實上,除了上述四大核心能力外,華爲云云原生數據湖MRS近期還更新了三大新特性,進一步完善了服務功能與能力,更加貼近當前用戶對於數據湖的使用需求。

MRS三大新特性值得關注

近期,華爲云云原生數據湖MRS進行了全面升級,最爲值得關注的就是Hudi、ClickHouse、Pulsar三大熱門組件的引入。

傳統數據湖不支持數據更新,導致數據採用T+1離線處理模式,完全無法匹配業務靈活多變的需求。因此,華爲云云原生數據湖MRS引入Hudi組件,來有效解決數據時效性問題。Hudi可以支持數據更新、數據刪除,還有ACID保證,保證數據實時入湖更新操作。

引入Hudi之後,華爲云云原生數據湖MRS的數據時效更快,實現分鐘級數據入湖,數據時效性從T+1到T+0;面對數據有刪除、更新的場景,Hudi處理效率比傳統採用Hive更新方式高10倍+;此外,Hudi可以讓開發人員的數據更新操作和使用數據庫一樣簡單,單條語句即可完成;而數據實時採集入湖,Hudi把入湖處理的工作分散到全天,把整個資源消耗的高峯和低峯抹平掉,大幅提升資源利用率。

爲什麼說雲原生數據湖正在成爲首選?

 

Apache Pulsar是一個發佈-訂閱消息系統,使用計算與存儲分離的雲原生架構。作爲一個雲原生的分佈式消息流平臺,Pulsar採用了計算存儲分離架構,擁有靈活擴展、多租戶、更靈活訂閱模式和分層存儲等優勢。從對比測試來看,Pulsar比Kafka更具優勢。華爲云云原生數據湖MRS已經發布Pulsar的POC版本,用戶可以一鍵式部署Pulsar服務,包括Broker和Bookie角色。

ClickHouse則是最近這兩年非常火的一款開源的分析型數據庫,擁有極致壓縮率和極速查詢性能。傳統OLAP引擎處理能力有限,數據一般需要先組織再與BI工具對接,導致BI用戶與數據工程師溝通週期長、協作效率低。

此次華爲云云原生數據湖MRS上線ClickHouse高性能引擎集羣,用戶只需要幾分鐘,就可以輕鬆方便地一鍵式完成集羣部署搭建,快速擁有PB級數據的秒級交互查詢分析能力,幫助用戶帶來極致的性能體驗!

華爲云云原生數據湖MRS的ClickHouse擁有手動擋集羣模式升級、平滑的彈性擴容能力、多元的鯤鵬算力加持、靈活易用的配置管理、高可用HA部署架構、豐富的監控運維能力和可靠的安全防護能力等優勢。目前,華爲云云原生數據湖MRS的ClickHouse服務在華爲內部實踐已經取得很好效果,整體使用規模已經達到2000+節點,數據量規模達10+PB,日增數據量100TB。

讓大數據遷移更容易

事實上,大數據和數據湖相關技術、方案經過十餘年的發展已經日趨成熟,當前各大行業、不同用戶中存在着大量特點迥異的數據湖解決方案。爲此,華爲雲打造了大數據遷移上雲解決方案,提供IDC上雲、CDH上雲、雲上資源遷移等多種大數據遷移解決方案,可以實現業務零改造、不中斷、便捷高效的大數據遷移。

以某車企的車聯網業務爲例,其採用CDH開源大數據解決方案,隨着車聯網數據不斷增加,其自建機房空間不足,擴建與研發投入成本高,運維成本也持續上升,車輛狀態分析、實時監控分析等數據分析需求卻一直在增加,通過華爲雲大數據遷移方案將其車聯網業務全面服務化和雲化,實現資源彈性擴縮容、百萬級車輛併發安全穩定介入和打通全價值鏈數據。

如今,華爲雲大數據已經成爲久經各種業務場景考驗、屢獲市場殊榮的雲服務,覆蓋金融、互聯網、交通、製造等多個行業超過3000家政企客戶和超過10000家互聯網客戶,並且連續三年蟬聯中國大數據平臺軟件市場份額榜首。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章