Spark Streaming 整合 Kafka（Receiver方式）在本地环境运行

原創

2020-04-05 18:37

步骤概述

1 启动zookeeper
2 启动Kafa
3 创建kafka topic
4 通过控制台测试本kafka topic是否能够正常的生产和消费信息
5 写Spark Streaming代码
6 启动Spark Streaming程序（传入参数zookeeper，group，topic，线程数）（传入参数 hadoop000:2181 test kafka_streaming_topic 1）
7 通过kafka-console-producer生产数据
8 查看idea控制台输出信息是否正确

/*Receiver没有Direct好，生产上一般使用Direct，Direct在Spark1.3之后才有*/

----------------------------------------

1 启动zookeeper命令

./zkServer.sh start

----------------------------------------

2 启动Kafa

$KAFKA_HOME/bin/kafka-server-start.sh -daemon $KAFKA_HOME/config/server.properties

----------------------------------------
3 创建kafka topic

$KAFKA_HOME/bin/kafka-topic.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic kafka_streaming_topic

----------------------------------------
4 通过控制台测试本kafka topic是否能够正常的生产和消费信息

// kafka消费端启动命令
$KAFKA_HOME/bin/kafka-console-consumer.sh --zookeeper localhost:2181 --topic kafka_streaming_topic

// kafka生产端启动命令
$KAFKA_HOME/bin/kafka-console-producer.sh --broker-list localhost:9092 --topic kafka_streaming_topic

// 向生产端发送字符，如果消费端能够收到就证明通了

----------------------------------------
5 写Spark Streaming代码

// 向maven添加依赖
 groupId = org.apache.spark
 artifactId = spark-streaming-kafka-0-8_2.11
 version = 2.2.0

package com.imooc.spark

import org.apache.spark.SparkConf
import org.apache.spark.streaming.kafka.KafkaUtils
import org.apache.spark.streaming.{Seconds, StreamingContext}

/*Spark Streaming 整合 Kafka Receiver 方法*/
object KafkaReceiverWordCount {

  def main(args: Array[String]): Unit = {

    if(args.length != 4) {
      System.err.println("Usage: KafkaReceiverWordCount <zkQuorum> <group> <topics> <numThreads>")
    }

    val Array(zkQuorum, group, topics, numThreads) = args

    val sparkConf = new SparkConf().setAppName("KafkaReceiverWordCount").setMaster("local[2]")
    val ssc = new StreamingContext(sparkConf, Seconds(5))

    val topicMap = topics.split(",").map((_, numThreads.toInt)).toMap

    // Spark Streaming对接Kafka需要ssc，zookeeper，组，topic
    val messages = KafkaUtils.createStream(ssc, zkQuorum, group, topicMap)

    // 自己趣测试为什么要取第二个
    messages.map(_._2).flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).print()

    ssc.start()
    ssc.awaitTermination()
  }

}

----------------------------------------
6 启动Spark Streaming程序（传入参数zookeeper，group，topic，线程数）（传入参数 hadoop000:2181 test kafka_streaming_topic 1）

在idea右键启动一次后添加启动参数

----------------------------------------
7 通过kafka-console-producer生产数据

$KAFKA_HOME/bin/kafka-console-producer.sh --broker-list localhost:9092 --topic kafka_streaming_topic

// 运行上面命令以后就打几个字符

----------------------------------------
8 查看idea控制台输出信息是否正确

----------------------------------------

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Spark Streaming 整合 Kafka（Receiver方式）在本地环境运行

如何使用 JS 判断用户是否处于活跃状态

lightdb秒级增加列和删除列（not null带默认值）

lightdb数据库超时相关控制参数

通过HPA+CronHPA组合应对业务复杂弹性伸缩场景

❤️‍🔥 Solon Cloud Event 新的事务特性与应用

lightdb mysql 8.0兼容之不可见主键

使用 JS 实现在浏览器控制台打印图片 console.image()

基于Ubuntu-22.04安装K8s-v1.28.2实验（四）使用域名访问网站应用

阿里雲大數據組件的基本介紹

IP地址、子網掩碼、默認網關、DNS服務器基本概念

爲什麼會出現存儲過程？存儲過程到底有什麼用？

Oracle報錯:Cant open editor connection

MySQL報錯：SQL錯誤[1146][42s02]: Table 'tablename' doesn't exist（記一次以爲自己刪庫的經歷）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結