SparkStreaming x Kafka 0.8 / 0.10 消費指南

原創

2020-02-23 14:06

Streaming x Kafka

實時統計數據時需要用到Spark Sreaming x kafka，spark版本就不多贅述了，kafka版本現在主要分0.8.x.x和0.10.x.x，但是調用相同API消費時發現兩者有區別，這裏做一下記錄。Kafka Streaming生成選擇常用的Direct Approach(No receiver)方式簡化並行，提升straming接數據時的穩定性。

0.8.x.x maven 依賴與消費

生成Spark Streaming時也可以不調用Spark Context，直接將Spark Conf 傳給 Streaming Context，這裏sc可以用來讀取其他變File

maven

        <dependency>
            <groupId>org.apache.kafka</groupId>
            <artifactId>kafka-clients</artifactId>
            <version>0.8.x.x</version>
        </dependency>

消費topic

    val kafkaParams = Map(
      "metadata.broker.list" -> KAFKA_BROKERS,
      "group.id" -> KAFKA_GROUP_ID,
      "auto.offset.reset" -> kafka.api.OffsetRequest.LargestTimeString
    )   
    val sparkConf = if (local) {
      new SparkConf()
        .setMaster(SPARK_LOCAL_HOST)
        .setAppName(appName)
    } else {
      new SparkConf().setAppName(appName)
    }
    val sc = new SparkContext(sparkConf)
    val ssc = new StreamingContext(sc,
      Seconds(SPARK_STREAMING_INTERVAL.toInt)
    )
    

val messages = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topicsSet)

    messages.foreachRDD(rdd => {
      rdd.foreachPartition(partition => {
        partition.foreach(line => {
          Execute(line)
        })
      })
    })
    ssc.start()
    ssc.awaitTermination()
  }

0.10.x.x maven 依賴與消費

與0.8.x.x的消費主要區別在kafka配置與DStream生成的API改動，主要邏輯寫在Excute函數中即可

maven

        <dependency>
            <groupId>org.apache.kafka</groupId>
            <artifactId>kafka-clients</artifactId>
            <version>0.10.x.x</version>
        </dependency>

消費topic

   val kafkaParameters = Map[String, Object](
      "bootstrap.servers" -> KAFKA_BROKERS,
      "group.id" -> KAFKA_GROUP_ID,
      "enable.auto.commit" -> (true: java.lang.Boolean),
      "auto.offset.reset" -> "latest",
      "key.deserializer" -> classOf[StringDeserializer],
      "value.deserializer" -> classOf[StringDeserializer],
      "security.protocol" -> "SASL_PLAINTEXT",
      "fetch.min.bytes" -> "4096",
      "sasl.mechanism" -> "PLAIN"
    )


    val sparkConf = if (local) {
      new SparkConf()
        .setMaster(SPARK_LOCAL_HOST)
        .setAppName(appName)
    } else {
      new SparkConf().setAppName(appName)
    }

    val sc = new SparkContext(sparkConf)
    val ssc = new StreamingContext(sc,
      Seconds(SPARK_STREAMING_INTERVAL.toInt)
    )


    val kafkaStream = KafkaUtils.createDirectStream[String, String](ssc,
      LocationStrategies.PreferConsistent,
      ConsumerStrategies.Subscribe[String, String](Array(KAFKA_TOPIC), kafkaParameters))

    kafkaStream.foreachRDD(rdd=>{
      rdd.foreachPartition(partition => {
        partition.foreach(line => {
          Execute(line.value())
        })
      })
    })
    ssc.start()
    ssc.awaitTermination()

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

SparkStreaming x Kafka 0.8 / 0.10 消費指南

Streaming x Kafka

0.8.x.x maven 依賴與消費

0.10.x.x maven 依賴與消費

[軟件工具百科] 互聯網資源歷史快照歸檔站點與數字圖書館

網易面試：SpringBoot如何開啓虛擬線程？

杭州的 IT 崩盤了麼？

程序員常見的文本查看工具

VS2022 解決方案打不開 .NET Framework 4.0 、 4.5 等老項目

Vue3 運行可以，build 打包發佈報錯，app.config.globalProperties 用法坑

既然測試也要求寫代碼，那乾脆讓開發兼任測試不就好了嗎？

ITSM落地經驗之建設藍圖規劃

PDF 補丁丁 1.0.2 版更新

奇怪！應用的日誌呢？？

Spark緩存之 Collect Cache Persist

java.lang.NoSuchMethodError 之依賴衝突解決方案

Maven 打包踩坑之ClassNotFoundException 與 NoClassDefFoundError

io.netty | ERROR org.apache.spark.network.client.TransportClient - Failed to send RPC

Detected both log4j-over-slf4j.jar AND slf4j-log4j12.jar 解決方法

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

SparkStreaming x Kafka 0.8 / 0.10 消費指南

Streaming x Kafka

0.8.x.x maven 依賴 與 消費

0.10.x.x maven 依賴 與 消費

0.8.x.x maven 依賴與消費

0.10.x.x maven 依賴與消費