原创 CDC一鍵入湖:當 Apache Hudi DeltaStreamer 遇見 Serverless Spark

Apache Hudi的DeltaStreamer是一種以近實時方式攝取數據並寫入Hudi表的工具類,它簡化了流式數據入湖並存儲爲Hudi表的操作,自 0.10.0 版開始,Hudi又在DeltaStreamer的基礎上增加了基於Debez

原创 圖加速數據湖分析-GeaFlow和Apache Hudi集成

表模型現狀與問題 關係模型自1970年由埃德加·科德提出來以後被廣泛應用於數據庫和數倉等數據處理系統的數據建模。關係模型以表作爲基本的數據結構來定義數據模型,表爲二維數據結構,本身缺乏關係的表達能力,關係的運算通過Join關聯運算來處理。表

原创 如何不加鎖地將數據併發寫入Apache Hudi?

最近一位 Hudi 用戶詢問他們是否可以在不需要任何鎖的情況下同時從多個寫入端寫入單個 Hudi 表。 他們場景是一個不可變的工作負載。 一般來說對於任何多寫入端功能,Hudi 建議啓用鎖定配置。 但這是一個有趣的問題,我們進行探索並找到了

原创 Apache Hudi 元數據字段揭祕

介紹 Apache Hudi 最初由Uber於 2016 年開發,旨在實現一個交易型數據湖,該數據湖可以快速可靠地支持更新,以支持公司拼車平臺的大規模增長。 Apache Hudi 現在被業內許多人廣泛用於構建一些非常大規模的數據湖。 Ap

原创 Apache Hudi 1.x 版本重磅功能展望與討論

Apache Hudi 社區正在對Apache Hudi 1.x版本功能進行討論,歡迎感興趣同學參與討論,PR鏈接:https://github.com/apache/hudi/pull/8679/files 摘要 此 RFC 提議對 Hu

原创 提升 Apache Hudi Upsert 性能的三個建議

Apache Hudi 社區一直在快速發展,各公司正在尋找方法來利用其強大的功能來有效地攝取和管理大規模數據集。 每週社區都會收到一些常見問題,最常見的問題與 Hudi 如何執行更新插入有關,以確保以低延遲訪問最新數據。 選擇合適的存儲表類

原创 日增數據超10PB!揭祕沃爾瑪Lakehouse架構選型之路

沃爾瑪系統產生了世界上最大和最多樣化的數據集之一,每天數據增長超 10 PB。 來自許多不同的來源及其支持的後端系統,一系列大量的業務事件流被髮送到主要由 Apache Kafka 支持的消息傳遞層。 沃爾瑪團隊強烈希望擴展近乎實時的決策制

原创 Onetable:統一的表格式元數據表示

概括 Onehouse 客戶現在可以將他們的 Hudi 表查詢爲 Apache Iceberg 和/或 Delta Lake 表,享受從雲上查詢引擎到頂級開源項目的原生性能優化。 在數據平臺需求層次結構的基礎上,存在攝取、存儲、管理和轉換數

原创 Apache Hudi 0.13.0版本重磅發佈!

Apache Hudi 0.13.0 版本引入了許多新功能,包括 Metaserver、變更數據捕獲、新的 Record Merge API、Deltastreamer支持新數據源等。 雖然此版本不需要表版本升級,但希望用戶在使用 0.13

原创 Apache Hudi 負載類Payload使用案例剖析

在 Hudi 中可以根據業務場景爲 Hudi 表配置負載類Payload,它用於在更新期間合併同一記錄的兩個版本。本文將深入瞭解有效負載類的用途以及可以使用的所有不同方式。 配置:hoodie.datasource.write.payloa

原创 Apache Hudi 流轉批 場景實踐

背景 在某些業務場景下,我們需要一個標誌來衡量hudi數據寫入的進度,比如:Flink 實時向 Hudi 表寫入數據,然後使用這個 Hudi 表來支持批量計算並通過一個 flag 來評估它的分區數據是否完整從而進一步寫入分區數據進行分區級別

原创 基於Apache Hudi 構建Serverless實時分析平臺

NerdWallet 的使命是爲生活中的所有財務決策提供清晰的信息。 這涵蓋了一系列不同的主題:從選擇合適的信用卡到管理您的支出,到找到最好的個人貸款,再到爲您的抵押貸款再融資。 因此,NerdWallet 提供了跨越衆多領域的強大功能,例

原创 一個理想的數據湖應具備哪些功能?

介紹 從數據庫到數據倉庫,最後到數據湖,隨着數據量和數據源的增加,數據格局正在迅速變化。 數據湖市場預計增長近 30%,將從 2020 年的 37.4 億美元增長到 2026 年的 176 億美元。 此外從 2022 年數據和人工智能峯會來

原创 一文聊透Apache Hudi的索引設計與應用

Hudi索引在數據讀和寫的過程中都有應用。讀的過程主要是查詢引擎利用MetaDataTable使用索引進行Data Skipping以提高查找速度;寫的過程主要應用在upsert寫上,即利用索引查找該紀錄是新增(I)還是更新(U),以提高寫

原创 醫療在線OLAP場景下基於Apache Hudi 模式演變的改造與應用

背景 在 Apache Hudi支持完整的Schema演變的方案中(https://mp.weixin.qq.com/s/rSW864o2YEbHw6oQ4Lsq0Q), 讀取方面,只完成了SQL on Spark的支持(Spark3以上,