kafka-spark-hive

1、場景介紹:數據發往kafka(500億條每天),用spark讀取kafka的數據,寫入到hive表裏面(ORC壓縮算法,一個分區字段)

2、hive的介紹:hive表是分區表分區的字段是一個,想要使用動態分區,hive的壓縮算法是ORC FILE

             使用spark的組件spark streaming 可以流式的讀取kafka的數據,並且直接寫入到HDFS上。首先說一下hive的分區表,由於是動態的分區表就不能夠使用load這樣的直接導入數據(load的數據只能靜態的分區),再一個就是指定的壓縮算法是ORC,不能夠將數據直接的寫入到hive表的文件裏面,只能做load或者是insert的怎樣的操作,進行導數據。

                   

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章