Apache Hudi：統一批和近實時分析的存儲和服務

原創

2020-07-08 05:50

https://blog.csdn.net/wypblog/article/details/104890482?utm_medium=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase&depth_1-utm_source=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase

分爲產生背景、動機、設計、使用案例、demo幾個模塊講解。

Uber的行程在2018年已經達到700個城市，70個國家，200w+司機的規模。

而數據在Uber中可分爲攝取和查詢，而攝取包括從kafka、hdfs上消費數據；查詢則包括使用spark notebook的數據科學家，使用Hive/Presto進行ad hoc查詢和dashboard展示，使用Spark/Hive構建數據管道或ETL任務等。引入Hudi，Hudi可以管理原始數據集，提供upsert、增量處理語義及快照隔離。

這是典型的流、批分析架構，可以看到，流、批處理會共同消費消息中間件（如kafka）的數據，流處理提供小於1min延遲的結果，批處理提供大約1小時延遲的結果，而批處理結果可修正流處理結果，這是一種典型的Lambda架構，即需要維護兩套系統，維護成本會較高。

當使用數據湖後，會提供如下優勢：1. 支持最新數據上的Ad hoc查詢；2. 近實時處理（微批），很多業務場景並不需要完全實時；3. 對於數據的處理更爲得當，如檢查文件大小，這對HDFS這類存儲非常重要，無需重寫整個分區的處理；4. 維護成本更低，如不需要複製數據，也不需要維護多套系統。

Hudi作爲Uber開源的數據湖框架，抽象了存儲層（支持數據集的變更，增量處理）；爲Spark的一個Lib（任意水平擴展，支持將數據存儲至HDFS）；開源（現已在Apache孵化）。

基於Hudi的架構設計，支持upsert，支持增量處理，支持不同的視圖等等，可以看到與典型的Lambda框架不同，此時基於Hudi的分析架構只需要維護Hudi即可，由Hudi提供的能力來滿足上層應用不同的需求。

Hudi在HDFS上管理了數據集，主要包括索引，數據文件和元數據，並且支持Hive/Presto/Spark進行查詢。

Hudi提供了三種不同類型的視圖，讀優化視圖、實時視圖、增量視圖，社區正在重構這三個定義，分別爲讀優化視圖、快照視圖、增量視圖。

對於COW類型，支持讀優化視圖，對於MOR類型，支持讀優化視圖、實時視圖，而對於最新的發佈版而言，COW支持讀優化視圖和增量視圖，MOR支持讀優化視圖、實時視圖和增量視圖。

在COW模式下，讀優化視圖僅僅讀取parquet數據文件，在批次1upsert後，讀優化視圖讀取File1和File2文件；在批次2upsert後，讀優化視圖讀取File 1'和File2文件。

使用COW模式可以解決很多問題，但其也存在一些問題，如寫方法，即更新的時延會比較大（由於複製整個文件導致）。

下面的工作流表示瞭如何處理延遲到達的更新，更新首先會反應至源表（Source table），然後源表更新至ETL table A，然後更新至ETL table B，這種工作流的延遲更大。

根據上面分析，可歸納出如下問題，高社區延遲、寫放大、數據新鮮度受限以及小文件問題。

與COW模式下更新時複製整個文件不同，可以將更新寫入一個增量文件，這樣便可降低數據攝取延遲，降低寫放大。

MOR模式下提供了讀優化視圖和實時視圖。

在批次1upsert之後，讀優化視圖讀取的也是Parquet文件，在批次2upsert之後，實時視圖讀取的是parquet文件和日誌文件合併的結果。

對比Hudi上不同視圖下的權衡，COW下的讀優化視圖擁有Parquet原生文件讀取性能，但數據攝取較慢；MOR下的讀優化視圖也有parquet原生文件讀取性能，但會讀取到過期的數據（並未更新）；MOR下實時視圖數據攝取性能高，在讀的時候會合並；合併（compaction）會將日誌文件轉化爲parquet文件，從實時視圖轉化爲讀優化視圖。