掃一掃加入大數據公衆號和技術交流羣,瞭解更多大數據技術,還有免費資料等你哦
Flink on Hive 介紹
Apache Flink 從 1.9.0 版本開始增加了與 Hive 集成的功能,1.10.0版本進行了功能的豐富,用戶可以通過 Flink 來訪問 Hive 的元數據,以及讀寫 Hive 中的表,Hive 是大數據領域最早出現的 SQL 引擎,發展至今有着豐富的功能和廣泛的用戶基礎。之後出現的 SQL 引擎,如 Spark SQL、Impala 等,都在一定程度上提供了與 Hive 集成的功能,從而方便用戶使用現有的數據倉庫、進行作業遷移等。
設計架構
與 Hive 集成主要包含了元數據和實際表數據的訪問,因此我們會從這兩方面介紹一下該項目的架構。
1.元數據
爲了訪問外部系統的元數據,Flink 提供了 ExternalCatalog 的概念。但是目前 ExternalCatalog 的定義非常不完整,基本處於不可用的狀態。因此,我們提出了一套全新的 Catalog 接口來取代現有的 ExternalCatalog。新的 Catalog 能夠支持數據庫、表、