基於 Hive 的離線數倉往往是企業大數據生產系統中不可缺少的一環。Hive 數倉有很高的成熟度和穩定性,但由於它是離線的,延時很大。在一些對延時要求比較高的場景,需要另外搭建基於 Flink 的實時數倉,將鏈路延時降低到秒級。但是一套離線數倉加一套實時數倉的架構會帶來超過兩倍的資源消耗,甚至 導致重複 開發。
想要搭建流式鏈路就必須得拋棄現有的 Hive 數倉嗎?並不是, 藉助 Flink 可以 實現已有 的 H ive 離線數倉準實時 化 。 本次分享將 分析當前離線數倉實時化的難點,詳解 Flink 如何解決 Hive 流批一體準實時數倉的難題,實現更高效、合理的資源配置。
直播大綱
- 離線數倉實時化的難點
- Lambda 架構,成本較高
- 使用第三方工具和調度工具的難點
- 數據湖,新技術嚐鮮不容易
- Flink on Hive 準實時方案
- 準實時數據攝入,Flink 如何做到準實時數據落地、精確語義
- 準實時消費,Flink 如何用流的方式消費 Hive 表
- 維表關聯,Flink 以流的方式關聯維表
- 基於 Flink 構建 Hive 流批一體準實時數倉應用實踐
- 案例需求
- 基於 Flink 的實時數據攝入案例
- 基於 Flink 搭建實時 Pipeline 案例
聽衆受益
- 瞭解流批一體數倉的構建和難點
- 瞭解 Hive 實時化的思路和發展
- 瞭解 Flink 相關技術思路
適合人羣
正在探索和建設 流批一體 Hive 實時化數倉的同學。
講師介紹
李勁松,花名之信,阿里巴巴技術專家,Apache Flink Committer。2014 年起專注於阿里內部 Galaxy 流計算框架;2017 年起開始 Flink 研發,主要專注於 Batch 計算、數據結構與類型。