CDH集成Kafka,兩種方式:離線、在線
1.離線 先下載相應版本的kafka http://archive.cloudera.com/kafka/parcels/ 然後放置相應目錄,如下圖:
然後直接添加組件即可
2.在線
配置相應的kafka地址 http://archive.cloudera.com/kafka/parcels/latest/ CDH會自動選擇相應的kafka版本,然後保存設置
然後選擇下載、分配、激活、添加組件即可!
注意: 由於1.6的spark streaming是基於kafka-0.8.2編譯的,雖然官網建議kafka-0.8及其以上,但kafka-0.9在更新zk的offset的api,完全不兼容kafka-0.8的api,所以說用高版本的kafak還是有一些坑要踩的 還是需要根據自己公司情況,自行選擇kafka版本
Kafka: Spark Streaming 1.6.1 is compatible with Kafka 0.8.2.1. Flume: Spark Streaming 1.6.1 is compatible with Flume 1.6.0.