Hudi系列18:Hudi全量接增量 一. 全量接增量概述

一. 全量接增量概述

如果已經有了全量的離線 Hoodie 表,需要接上實時寫入,並且保證數據不重複,可以開啓 index bootstrap 功能。

如果覺得流程冗長,可以在寫入全量數據的時候資源調大直接走流模式寫,全量走完接新數據再將資源調小(或者開啓限流功能)。

WITH參數:

名稱 Required 默認值 說明
index.bootstrap.enabled true false 開啓索引加載,會將已存表
index.partition.regex false * 設置正則表達式進行分區篩選,默認爲加載全部分區

使用流程:

  1. create table 創建和 Hoodie 表對應的語句,注意 table type要正確
  2. 設置 index.bootstrap.enabled = true 開啓批量加載功能
  3. 重啓任務將 index.bootstarp.enabled 關閉, 參數配置到合適大小,如果RowDataToHoodieFunction 和 BootstrapFunction 併發不同,可以重啓避免shuffle
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章