#Spark流计算-章节1

概述

一般流式计算会与批量计算相比较。在流式计算模型中,输入是持续的,可以认为在时间上是无界的,也就意味着,永远拿不到全量数据去做计算。同时,计算结果是持续输出的,也即计算结果在时间上也是无界的。流式计算一般对实时性要求较高,同时一般是先定义目标计算,然后数据到来之后将计算逻辑应用于数据。同时为了提高计算效率,往往尽可能采用增量计算代替全量计算。批量处理模型中,一般先有全量数据集,然后定义计算逻辑,并将计算应用于全量数据。特点是全量计算,并且计算结果一次性全量输出。
在这里插入图片描述
批处理 VS 流处理区别

目前主流流处理框架:Kafka Streaming、Storm(JStrom)、Spark Streaming 、Flink(BLink)

  • Kafka Streaming:是一套基于Kafka-Streaming库的一套流计算工具jar包,具有入门门槛低,简单容易集成等特点。

  • Apache Storm:一款纯粹的流计算引擎,能够达到每秒钟百万级别数据的低延迟处理框架。

  • Spark Streaming:是构建在Spark 批处理之上一款流处理框架。与批处理不同的是,流处理计算的数据是无界数据流,输出也是持续的。Spark Streaming底层将Spark RDD Batch 拆分成 Macro RDD Batch实现类似流处理的功能。因此spark Streaming在微观上依旧是批处理框架。
    html>

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章