原创 一文聊透Apache Hudi的索引設計與應用

Hudi索引在數據讀和寫的過程中都有應用。讀的過程主要是查詢引擎利用MetaDataTable使用索引進行Data Skipping以提高查找速度;寫的過程主要應用在upsert寫上,即利用索引查找該紀錄是新增(I)還是更新(U),以提高寫

原创 醫療在線OLAP場景下基於Apache Hudi 模式演變的改造與應用

背景 在 Apache Hudi支持完整的Schema演變的方案中(https://mp.weixin.qq.com/s/rSW864o2YEbHw6oQ4Lsq0Q), 讀取方面,只完成了SQL on Spark的支持(Spark3以上,

原创 Lakehouse架構指南

你曾經是否有構建一個開源數據湖來存儲數據以進行分析需求? 數據湖包括哪些組件和功能? 不瞭解 Lakehouse 和 數據倉庫 之間的區別? 或者只是想管理數百到數千個文件並擁有更多類似數據庫的功能但不知道如何操作? 本文解釋了數據湖的細節

原创 硬核!Apache Hudi Schema演變深度分析與應用

1.場景需求 在醫療場景下,涉及到的業務庫有幾十個,可能有上萬張表要做實時入湖,其中還有某些庫的表結構修改操作是通過業務人員在網頁手工實現,自由度較高,導致整體上存在非常多的新增列,刪除列,改列名的情況。由於Apache Hudi 0.9.

原创 華爲雲 MRS 基於 Apache Hudi 極致查詢優化的探索實踐

背景 湖倉一體(LakeHouse)是一種新的開放式架構,它結合了數據湖和數據倉庫的最佳元素,是當下大數據領域的重要發展方向。 華爲雲早在2020年就開始着手相關技術的預研,並落地在華爲雲 FusionInsight MRS智能數據湖解決方

原创 構建端到端的開源現代數據平臺

瞭解使用開源技術構建現代數據棧的詳細指南。 在過去的幾年裏,數據工程領域的重要性突飛猛進,爲加速創新和進步打開了大門——從今天開始,越來越多的人開始思考數據資源以及如何更好地利用它們。這一進步反過來又導致了數據技術的“第三次浪潮”。 “

原创 使用 Apache Hudi 實現 SCD-2(漸變維度)

數據是當今分析世界的寶貴資產。 在向最終用戶提供數據時,跟蹤數據在一段時間內的變化非常重要。 漸變維度 (SCD) 是隨時間推移存儲和管理當前和歷史數據的維度。 在 SCD 的類型中,我們將特別關注類型 2(SCD 2),它保留了值的完整歷

原创 基於 Apache Hudi + Presto + AWS S3 構建開放Lakehouse

認識Lakehouse 數據倉庫被認爲是對結構化數據執行分析的標準,但它不能處理非結構化數據。 包括諸如文本、圖像、音頻、視頻和其他格式的信息。 此外機器學習和人工智能在業務的各個方面變得越來越普遍,它們需要訪問數據倉庫之外的大量信息。

原创 使用Apache Flink 和 Apache Hudi 創建低延遲數據湖管道

近年來出現了從單體架構向微服務架構的轉變。微服務架構使應用程序更容易擴展和更快地開發,支持創新並加快新功能上線時間。但是這種方法會導致數據存在於不同的孤島中,這使得執行分析變得困難。爲了獲得更深入和更豐富的見解,企業應該將來自不同孤島的所有

原创 基於 Apache Hudi 和DBT 構建開放的Lakehouse

本博客的重點展示如何利用增量數據處理和執行字段級更新來構建一個開放式 Lakehouse。 我們很高興地宣佈,用戶現在可以使用 Apache Hudi + dbt 來構建開放Lakehouse。 在深入瞭解細節之前,讓我們先澄清一下本博客

原创 基於Apache Hudi構建分析型數據湖

爲了有機地發展業務,每個組織都在迅速採用分析。 在分析過程的幫助下,產品團隊正在接收來自用戶的反饋,並能夠以更快的速度交付新功能。 通過分析提供的對用戶的更深入瞭解,營銷團隊能夠調整他們的活動以針對特定受衆。 只有當我們能夠大規模提供分析時

原创 Apache Hudi vs Delta Lake:透明TPC-DS Lakehouse性能基準

1. 介紹 最近幾周,人們對比較 Hudi、Delta 和 Iceberg 的表現越來越感興趣。 我們認爲社區應該得到更透明和可重複的分析。 我們想就如何執行和呈現這些基準、它們帶來什麼價值以及我們應該如何解釋它們添加我們的觀點。 2. 現

原创 詳解 Apache Hudi Schema Evolution(模式演進)

Schema Evolution(模式演進)允許用戶輕鬆更改 Hudi 表的當前模式,以適應隨時間變化的數據。 從 0.11.0 版本開始,支持 Spark SQL(spark3.1.x 和 spark3.2.1)對 Schema 演進的

原创 Apache Hudi數據跳過技術加速查詢高達50倍

介紹 在 Hudi 0.10 中,我們引入了對高級數據佈局優化技術的支持,例如 Z-order和希爾伯特空間填充曲線(作爲新的聚類算法),即使在經常使用過濾器查詢大表的複雜場景中,也可以在多個列而非單個列上進行數據跳過。 但實際上什麼是Da

原创 深入理解Apache Hudi異步索引機制

在我們之前的文章中,我們討論了多模式索引的設計,這是一種用於Lakehouse架構的無服務器和高性能索引子系統,以提高查詢和寫入性能。在這篇博客中,我們討論了構建如此強大的索引所需的機制,異步索引機制的設計,類似於 PostgreSQL 和