Spark Streaming 接任意数据源作为 Stream

原創

2020-06-22 02:55

Spark Streaming 接任意数据源作为 Stream

问题出发点

工程中遇到流式处理的问题时，多采用Spark Streaming 或者 Storm 来处理；Strom采用Spout的流接入方式，Streaming采用Stream的流接入方式，为了方便本地测试，所以选择了spark streaming，但是官方仅支持如下几种方案，当遇到其他高吞吐数据量作为流时，就需要主角 Receiver 登场：

实现关键类

Receiver：

Receiver是spark内部实现的一套机制，通过自定义一个类继承Receiver即可实现自定义数据源，再通过ssc的receiverStream接口即可实现数据转RDD的操作，即可像Kafka，Flume等正常操作Spark Streaming。本质上通过receiverStream得到的是ReceiverInputDStreaming。

class MyReceiver(storageLevel: StorageLevel) extends NetworkReceiver[String](storageLevel) {
    def onStart() {
        // Setup stuff (start threads, open sockets, etc.) to start receiving data.
        // Must start new thread to receive data, as onStart() must be non-blocking.

        // Call store(...) in those threads to store received data into Spark's memory.

        // Call stop(...), restart(...) or reportError(...) on any thread based on how
        // different errors need to be handled.

        // See corresponding method documentation for more details
    }

    def onStop() {
        // Cleanup stuff (stop threads, close sockets, etc.) to stop receiving data.
    }
}

这里需要实现两个函数，onStart 和 onStop ，onStart里就是你数据源的具体逻辑，按照官方的说法，onstart方法下你需要启动线程，连接sockets以开始接收数据。要求必须启动新线程以接收数据，且保证onStart() 是非阻塞的。在这些线程中调用store()方法将接收到的数据存储到Spark的内存中，作为一次流的内容，这里store方法是Receiver中自带的，无需自己实现。这里需要注意你连接的client必须非堵塞，如果同时连接多个端口或者一个key只能一个线程消费时，就会引发异常。

具体实现

spark streaming 主类：

    import org.apache.spark.SparkConf
    import org.apache.spark.streaming.{Seconds, StreamingContext}

    val sparkConf = new SparkConf().setAppName(appName)
    val ssc = new StreamingContext(sparkConf, Seconds(interval.toInt))
    val stream = ssc.receiverStream(new MyReceiver())
    stream.foreachRDD(rdd => {
      rdd.foreachPartition(partition => {
        partition.foreach(line => {
          println(line)
        })
      })
    })

    try {
      ssc.start()
      ssc.awaitTermination()
    } catch {
      case e: Exception => {
        println(e.getStackTrace)
      }
    }

MyReceiver类：

大概解释一下 onStart 方法启一个线程，执行receiver函数，receiver中初始化自己的数据连接服务器并get数据，将get到的数据调用store方法，即可存到spark的内存中。正常情况下，receiver函数中while (ture) 即可，除非是限时的流式处理（比较少见）

1）onStop方法不写也可以，主要实现onStart方法即可

2) 可以根据自己服务器环境调整StorageLevel

3) 如果非堵塞也可以在onstart方法中实现多线程增加吞吐

import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming.receiver.Receiver


class MyReceiver(host: String, port: String) extends Receiver[String](StorageLevel.MEMORY_AND_DISK_2) {

  def onStart(): Unit = {
    new Thread("Socket Receiver") {
      override def run() { receive() }
    }.start()
  }

  def onStop: Unit = {
    if (Thread.currentThread.isInterrupted) {
      sys.exit(1)
    }
  }

  // myClient可以是任意连接
  private def receive(): Unit = {
    var client: MyClient = null
    try {
      client = new MyClient(host, port)
    } catch {
      case e: Exception => {
        println(e.getStackTrace)
        println("MyClient 连接失败!")
      }
    }

    while ({
      !Thread.currentThread.isInterrupted
    }) {
      try {
        val message = client.get(key)
        if (message != null) store(message)
      } catch {
        case e: Exception => {
          e.printStackTrace()
        }
      }
    }
  }

}

Tips:

具体实现Receiver的话还有RawNetworkReceiver和SocketReciver两种方法，有兴趣实现也可以参考文档和上面的写法实现。核心就是onStart对数据源接入的定义。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Spark Streaming 接任意数据源作为 Stream

Spark Streaming 接任意数据源作为 Stream

问题出发点

实现关键类

具体实现

使用c#强大的表达式树实现对象的深克隆之解决循环引用的问题

GPT-4o 引领人机交互新风向，向量数据库赛道沸腾了

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU启动那些事（12.A）- uSDHC eMMC启动时间(RT1170)

基于Ubuntu-22.04安装K8s-v1.28.2实验（二）使用kube-vip实现集群VIP访问

企业大模型如何成为自己数据的“百科全书”？

本地SSL证书过期输入命令在IIS自动生成

.NET周刊【5月第2期 2024-05-12】

基于Ubuntu-22.04安装K8s-v1.28.2实验（一）部署K8s

基于Ubuntu-22.04安装K8s-v1.28.2实验（三）数据卷挂载NFS（网络文件系统）

Spark緩存之 Collect Cache Persist

java.lang.NoSuchMethodError 之依賴衝突解決方案

Maven 打包踩坑之ClassNotFoundException 與 NoClassDefFoundError

io.netty | ERROR org.apache.spark.network.client.TransportClient - Failed to send RPC

Detected both log4j-over-slf4j.jar AND slf4j-log4j12.jar 解決方法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結