一. 全量接增量概述
如果已經有了全量的離線 Hoodie 表,需要接上實時寫入,並且保證數據不重複,可以開啓 index bootstrap 功能。
如果覺得流程冗長,可以在寫入全量數據的時候資源調大直接走流模式寫,全量走完接新數據再將資源調小(或者開啓限流功能)。
WITH參數:
名稱 | Required | 默認值 | 說明 |
---|---|---|---|
index.bootstrap.enabled | true | false | 開啓索引加載,會將已存表 |
index.partition.regex | false | * | 設置正則表達式進行分區篩選,默認爲加載全部分區 |
使用流程:
- create table 創建和 Hoodie 表對應的語句,注意 table type要正確
- 設置 index.bootstrap.enabled = true 開啓批量加載功能
- 重啓任務將 index.bootstarp.enabled 關閉, 參數配置到合適大小,如果RowDataToHoodieFunction 和 BootstrapFunction 併發不同,可以重啓避免shuffle