kafka-spark-hive

原創

2020-06-22 04:37

1、場景介紹：數據發往kafka（500億條每天），用spark讀取kafka的數據，寫入到hive表裏面（ORC壓縮算法，一個分區字段）

2、hive的介紹：hive表是分區表分區的字段是一個，想要使用動態分區，hive的壓縮算法是ORC FILE

使用spark的組件spark streaming 可以流式的讀取kafka的數據，並且直接寫入到HDFS上。首先說一下hive的分區表，由於是動態的分區表就不能夠使用load這樣的直接導入數據（load的數據只能靜態的分區），再一個就是指定的壓縮算法是ORC，不能夠將數據直接的寫入到hive表的文件裏面，只能做load或者是insert的怎樣的操作，進行導數據。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

kafka-spark-hive

kafka-spark-hive

canal問題彙集，高可用，kerberos，tsdb，metric監控，admin等等

clickhouse的高級使用摸索

TiDB單機，docker-compose安裝

vue-admin-template和vue-element-admin框架的二次開發使用發佈部署接口路由權限環境搭建，前端快速入門框架

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結