恭喜，Apache Hudi 即將成爲頂級項目！

原創

2020-05-25 18:46

美國當地時間2020年05月11日，Apache Hudi 項目的共同創始人、PMC Vinoth Chandar 給社區發了一封標題爲 [DISCUSS] Graduate Apache Hudi (Incubating) as a TLP^[1] 的郵件，來投票討論 Apache Hudi 畢業成爲 Apache TLP 項目。

2020年05月19日共40人投票贊成^[2] ，不久社區給 Apache 董事會申請成爲 TLP，今天（2020年05月23日）凌晨結果終於出來了，Vinoth Chandar 大佬給社區發了郵件說Apache 董事會同意 Apache Hudi 成爲頂級項目提議。接下來，Apache Hudi 社區會準備進入 TLP 的一些事情。

Apache Hudi（Hoodie）是 Uber 爲了解決大數據生態系統中需要插入更新及增量消費原語的攝取管道和 ETL 管道的低效問題，該項目在2016年開始開發，並於2017年開源，2019年1月進入 Apache 孵化器。

Hudi (Hadoop Upsert Delete and Incremental) 是一種分析和掃描優化的數據存儲抽象，可在幾分鐘之內將變更應用於 HDFS 中的數據集中，並支持多個增量處理系統處理數據。通過自定義的 InputFormat 與當前 Hadoop 生態系統(包括 Apache Hive、Apache Parquet、Presto 和 Apache Spark)集成，使得該框架對最終用戶來說是無縫的。

Hudi 的設計目標就是爲了快速增量更新 HDFS 上的數據集，它提供了兩種更新數據的方式：Copy On Write 和 Merge On Read。Copy On Write 模式就是我們更新數據的時候需要通過索引獲取更新的數據所涉及的文件，然後把這些數據讀出來和更新的數據進行合併，這種模式更新數據比較簡單，但是當更新涉及到的數據比較大時，效率非常低；而 Merge On Read 就是將更新寫到單獨的新文件裏面，然後我們可以選擇同步或異步將更新的數據和原來的數據進行合併（可以稱爲 combination），因爲更新的時候只寫新的文件，所以這種模式更新的速度會比較快。

有了 Hudi 之後，我們可以實時採集 MySQL、HBase、Cassandra 裏面的增量數據然後寫到 Hudi 中，然後 Presto、Spark、Hive 可以很快地讀取到這些增量更新的數據，如下：

更多關於 Apache Hudi 的介紹可以參見《Apache Hudi: Uber 開源的大數據增量處理框架》以及《Uber 大數據平臺的演進（2014~2019）》的介紹，以及 Apache Hudi 的官方文檔：http://hudi.apache.org/

引用鏈接

[1] [DISCUSS] Graduate Apache Hudi (Incubating) as a TLP: https://www.mail-archive.com/[email protected]/msg72160.html
[2] https://lists.apache.org/thread.html/r86278a1a69bbf340fa028aca784869297bd20ab50a71f4006669cdb5%40%3Cgeneral.incubator.apache.org%3E

恭喜，Apache Hudi 即將成爲頂級項目！

引用鏈接

自學編程兩個月，現在我月入 4 萬元

Google Chrome驅動程序 124.0.6367.62（正式版本）去哪下載？

Uber 如何使用 Apache Hudi 支撐 PB 級數據湖

你要的 Spark AI Summit 2020 PPT 我已經給你整理好了

年薪40w的大數據開發，它不香麼？

Spark SQL 中 Broadcast Join 一定比 Shuffle Join 快？那你就錯了。

Redis 集羣原理，再也不怕面試被問倒

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結