恭喜,Apache Hudi 即將成爲頂級項目!

美國當地時間2020年05月11日,Apache Hudi 項目的共同創始人、PMC Vinoth Chandar 給社區發了一封標題爲 [DISCUSS] Graduate Apache Hudi (Incubating) as a TLP[1] 的郵件,來投票討論 Apache Hudi 畢業成爲 Apache TLP 項目。

2020年05月19日共40人投票贊成[2] ,不久社區給 Apache 董事會申請成爲 TLP,今天(2020年05月23日)凌晨結果終於出來了,Vinoth Chandar 大佬給社區發了郵件說Apache 董事會同意 Apache Hudi 成爲頂級項目提議。接下來,Apache Hudi 社區會準備進入 TLP 的一些事情。

Apache Hudi(Hoodie) 是 Uber 爲了解決大數據生態系統中需要插入更新及增量消費原語的攝取管道和 ETL 管道的低效問題,該項目在2016年開始開發,並於2017年開源,2019年1月進入 Apache 孵化器。

Hudi (Hadoop Upsert Delete and Incremental) 是一種分析和掃描優化的數據存儲抽象,可在幾分鐘之內將變更應用於 HDFS 中的數據集中,並支持多個增量處理系統處理數據。通過自定義的 InputFormat 與當前 Hadoop 生態系統(包括 Apache Hive、Apache Parquet、Presto 和 Apache Spark)集成,使得該框架對最終用戶來說是無縫的。

Hudi 的設計目標就是爲了快速增量更新 HDFS 上的數據集,它提供了兩種更新數據的方式:Copy On Write 和 Merge On Read。Copy On Write 模式就是我們更新數據的時候需要通過索引獲取更新的數據所涉及的文件,然後把這些數據讀出來和更新的數據進行合併,這種模式更新數據比較簡單,但是當更新涉及到的數據比較大時,效率非常低;而 Merge On Read 就是將更新寫到單獨的新文件裏面,然後我們可以選擇同步或異步將更新的數據和原來的數據進行合併(可以稱爲 combination),因爲更新的時候只寫新的文件,所以這種模式更新的速度會比較快。

有了 Hudi 之後,我們可以實時採集 MySQL、HBase、Cassandra 裏面的增量數據然後寫到 Hudi 中,然後 Presto、Spark、Hive 可以很快地讀取到這些增量更新的數據,如下:

更多關於 Apache Hudi 的介紹可以參見 《Apache Hudi: Uber 開源的大數據增量處理框架》 以及 《Uber 大數據平臺的演進(2014~2019)》的介紹,以及 Apache Hudi 的官方文檔:http://hudi.apache.org/

引用鏈接

[1] [DISCUSS] Graduate Apache Hudi (Incubating) as a TLP: https://www.mail-archive.com/[email protected]/msg72160.html
[2]  https://lists.apache.org/thread.html/r86278a1a69bbf340fa028aca784869297bd20ab50a71f4006669cdb5%40%3Cgeneral.incubator.apache.org%3E

 

猜你喜歡

1、NVIDIA 與數磚合作,將 GPU 加速帶入 Apache Spark 3.0

2、58同城 HBase 平臺建設實踐

3、MongoDB Spark Connector 實戰指南

4、Apache Kafka 不需要管理員:刪除 Apache ZooKeeper 的依賴

過往記憶大數據微信羣,請添加微信:fangzhen0219,備註【進羣】

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章