flink实战--读写Hive(Flink on Hive)

扫一扫加入大数据公众号和技术交流群,了解更多大数据技术,还有免费资料等你哦

Flink on Hive 介绍

                          Apache Flink 从 1.9.0 版本开始增加了与 Hive 集成的功能,1.10.0版本进行了功能的丰富,用户可以通过 Flink 来访问 Hive 的元数据,以及读写 Hive 中的表,Hive 是大数据领域最早出现的 SQL 引擎,发展至今有着丰富的功能和广泛的用户基础。之后出现的 SQL 引擎,如 Spark SQL、Impala 等,都在一定程度上提供了与 Hive 集成的功能,从而方便用户使用现有的数据仓库、进行作业迁移等。

设计架构

与 Hive 集成主要包含了元数据和实际表数据的访问,因此我们会从这两方面介绍一下该项目的架构。

1.元数据

                      为了访问外部系统的元数据,Flink 提供了 ExternalCatalog 的概念。但是目前 ExternalCatalog 的定义非常不完整,基本处于不可用的状态。因此,我们提出了一套全新的 Catalog 接口来取代现有的 ExternalCatalog。新的 Catalog 能够支持数据库、表、

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章