原创 通用數據湖倉一體架構正當時

這篇博文中提出的建議並不新鮮。事實上許多組織已經投入了數年時間和昂貴的數據工程團隊的工作,以慢慢構建這種架構的某個版本。我知道這一點,因爲我以前在Uber和LinkedIn做過這樣的工程師。我還與數百個組織合作,在開源社區中構建它並朝着類似

原创 Apache Hudi從零到一:存儲格式初探

在花了大約 4 年時間致力於 Apache Hudi(其中包括 3 年Committer身份)之後,我決定開始這個博客系列,旨在以有組織且適合初學者的方式展示 Hudi 的設計和用法。 我的目標是確保對分佈式數據系統有一定了解的人能夠輕鬆

原创 Apache Hudi 在 vivo 湖倉一體的落地實踐

作者:vivo 互聯網大數據團隊 - Xu Yu 在增效降本的大背景下,vivo大數據基礎團隊引入Hudi組件爲公司業務部門湖倉加速的場景進行賦能。主要應用在流批同源、實時鏈路優化及寬表拼接等業務場景。 Hudi 基礎能力及相關概念介紹

原创 記錄級別索引:Hudi 針對大型數據集的超快索引

介紹 索引是一個關鍵組件,有助於 Hudi 寫入端快速更新和刪除,並且它在提高查詢執行方面也發揮着關鍵作用。 Hudi提供了多種索引類型,包括全局變化的Bloom索引和Simple索引、利用HBase服務的HBase索引、基於哈希的Buck

原创 Apache Hudi在信息服務行業構建流批一體的實踐

個人介紹 李昂 高級數據研發工程師 Apache Doris & Hudi Contributor 業務背景 部門成立早期, 爲了應對業務的快速增長, 數倉架構採用了最直接的Lambda架構 對數據新鮮度要求不高的數據, 採用離線數倉做

原创 阿里雲AnalyticDB基於Flink CDC+Hudi實現多表全增量入湖實踐

湖倉一體(LakeHouse)是大數據領域的重要發展方向,提供了流批一體和湖倉結合的新場景。阿里雲AnalyticDB for MySQL基於 Apache Hudi 構建了新一代的湖倉平臺,提供日誌、CDC等多種數據源一鍵入湖,在離線計

原创 Apache Hudi Timeline:支持 ACID 事務的基礎

Apache Hudi 維護在給定表上執行的所有操作的Timeline(時間線),以支持以符合 ACID 的方式高效檢索讀取查詢的數據。 在寫入和表服務期間也會不斷查閱時間線,這是表正常運行的關鍵。 如果任何時間線操作出現混亂(由於多寫入未

原创 萬字長文 | 泰康人壽基於 Apache Hudi 構建湖倉一體平臺的應用實踐

文章貢獻者 Authors 技術指導: 泰康人壽 數據架構資深專家工程師 王可 文章作者: 泰康人壽 數據研發工程師 田昕嶢 摘要 Abstract 本文詳細介紹了泰康人壽基於 Apache Hudi 構建湖倉一體分佈式數據處理平臺的技

原创 CDC一鍵入湖:當 Apache Hudi DeltaStreamer 遇見 Serverless Spark

Apache Hudi的DeltaStreamer是一種以近實時方式攝取數據並寫入Hudi表的工具類,它簡化了流式數據入湖並存儲爲Hudi表的操作,自 0.10.0 版開始,Hudi又在DeltaStreamer的基礎上增加了基於Debez

原创 圖加速數據湖分析-GeaFlow和Apache Hudi集成

表模型現狀與問題 關係模型自1970年由埃德加·科德提出來以後被廣泛應用於數據庫和數倉等數據處理系統的數據建模。關係模型以表作爲基本的數據結構來定義數據模型,表爲二維數據結構,本身缺乏關係的表達能力,關係的運算通過Join關聯運算來處理。表

原创 如何不加鎖地將數據併發寫入Apache Hudi?

最近一位 Hudi 用戶詢問他們是否可以在不需要任何鎖的情況下同時從多個寫入端寫入單個 Hudi 表。 他們場景是一個不可變的工作負載。 一般來說對於任何多寫入端功能,Hudi 建議啓用鎖定配置。 但這是一個有趣的問題,我們進行探索並找到了

原创 Apache Hudi 元數據字段揭祕

介紹 Apache Hudi 最初由Uber於 2016 年開發,旨在實現一個交易型數據湖,該數據湖可以快速可靠地支持更新,以支持公司拼車平臺的大規模增長。 Apache Hudi 現在被業內許多人廣泛用於構建一些非常大規模的數據湖。 Ap

原创 Apache Hudi 1.x 版本重磅功能展望與討論

Apache Hudi 社區正在對Apache Hudi 1.x版本功能進行討論,歡迎感興趣同學參與討論,PR鏈接:https://github.com/apache/hudi/pull/8679/files 摘要 此 RFC 提議對 Hu

原创 提升 Apache Hudi Upsert 性能的三個建議

Apache Hudi 社區一直在快速發展,各公司正在尋找方法來利用其強大的功能來有效地攝取和管理大規模數據集。 每週社區都會收到一些常見問題,最常見的問題與 Hudi 如何執行更新插入有關,以確保以低延遲訪問最新數據。 選擇合適的存儲表類

原创 日增數據超10PB!揭祕沃爾瑪Lakehouse架構選型之路

沃爾瑪系統產生了世界上最大和最多樣化的數據集之一,每天數據增長超 10 PB。 來自許多不同的來源及其支持的後端系統,一系列大量的業務事件流被髮送到主要由 Apache Kafka 支持的消息傳遞層。 沃爾瑪團隊強烈希望擴展近乎實時的決策制