Spark Streaming + Kafka整合

原創

2018-08-24 17:52

兩種常用的Spark Streaming和Kafka整合方法：
1. CreateStream:
傳統方法，使用了接收器和Kafka的高階API
接收器接收到的數據被存在Spark executors中，隨後streaming的任務會處理數據。
缺點：會丟失數據，除非設置streaming的write ahead logs
2. CreateDirectStream:
新方法，不使用接收器
優勢：優化並行結構，kafka分區和RDD分區一一對應；不需要爲了數據恢復而寫write ahead logs，數據直接從kafka恢復；不會出現offset數據的不一致，offset全部由streaming維護

CreateStream

1.添加maven依賴：

 groupId = org.apache.spark
 artifactId = spark-streaming-kafka_2.10
 version = 1.6.0

2.代碼(API docs)：

 import org.apache.spark.streaming.kafka._

 val kafkaStream = KafkaUtils.createStream(streamingContext, 
     [ZK quorum], [consumer group id], [per-topic number of Kafka partitions to consume])

3.注意：
Kafka的topic partitions和Streaming中RDD的partition不是對應的

CreateDirectStream

1.添加maven依賴：

 groupId = org.apache.spark
 artifactId = spark-streaming-kafka_2.10
 version = 1.6.0

2.代碼（API doc和example）

 import org.apache.spark.streaming.kafka._

 val directKafkaStream = KafkaUtils.createDirectStream[
     [key class], [value class], [key decoder class], [value decoder class] ](
     streamingContext, [map of Kafka parameters], [set of topics to consume])

最後生成的directKafkaStream是一個流stream，可以拆分成一個個RDD進行操作
附：官方文檔補充

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Spark Streaming + Kafka整合

CreateStream

CreateDirectStream

PDManer [元數建模]-v4.9.0 發佈：一款簡單好用的數據庫建模平臺

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

cs01 CSS Syntax

挑戰程序設計競賽 2.3章習題 poj 3046 Ant Counting

[MASM拾遺]Offset僞指令

h30 HTML Layout Elements

瞭解顯卡

一款基於C#開發的通訊調試工具（支持Modbus RTU、MQTT調試）

Linux/Golang/glibC系統調用

cs04 CSS Measurement Units

【Python】Windows上創建virtualenv 詳解

Flume 與 Kafka 整合連接

Spark Streaming + Kafka整合

MySQL 連接通過實例總結詳解笛卡爾積，自然連接，內連接，外連接

Zookeeper官方文檔學習筆記

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結