#Spark流计算-章节1

原創

麦田里的守望者·

2020-06-21 08:57

概述

一般流式计算会与批量计算相比较。在流式计算模型中，输入是持续的，可以认为在时间上是无界的，也就意味着，永远拿不到全量数据去做计算。同时，计算结果是持续输出的，也即计算结果在时间上也是无界的。流式计算一般对实时性要求较高，同时一般是先定义目标计算，然后数据到来之后将计算逻辑应用于数据。同时为了提高计算效率，往往尽可能采用增量计算代替全量计算。批量处理模型中，一般先有全量数据集，然后定义计算逻辑，并将计算应用于全量数据。特点是全量计算，并且计算结果一次性全量输出。

批处理 VS 流处理区别

目前主流流处理框架：Kafka Streaming、Storm（JStrom）、Spark Streaming 、Flink（BLink）

Kafka Streaming:是一套基于Kafka-Streaming库的一套流计算工具jar包，具有入门门槛低，简单容易集成等特点。
Apache Storm:一款纯粹的流计算引擎，能够达到每秒钟百万级别数据的低延迟处理框架。
Spark Streaming：是构建在Spark 批处理之上一款流处理框架。与批处理不同的是，流处理计算的数据是无界数据流，输出也是持续的。Spark Streaming底层将Spark RDD Batch 拆分成 Macro RDD Batch实现类似流处理的功能。因此spark Streaming在微观上依旧是批处理框架。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Apache Spark-[概述和安装]

概述 Spark是一個快如閃電的統一分析引擎（計算框架）用於大規模數據集的處理。Spark在做數據的批處理計算，計算性能大約是Hadoop MapReduce的10~100倍，因爲Spark使用比較先進的基於DAG任務調度，可以將

麦田里的守望者·

2020-06-21 08:57:58

Spark对接Hive

修改hive-site.xml <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://CentOS:3306/hive?c

麦田里的守望者·

2020-06-21 08:57:58

Spark Catalyst初识

Spark Catalyst 最近想來，大數據相關技術與傳統型數據庫技術很多都是相互融合、互相借鑑的。傳統型數據庫強勢在於其久經考驗的SQL優化器經驗，弱勢在於分佈式領域的高可用性、容錯性、擴展性等，假以時日，讓其經過一定的改造，

麦田里的守望者·

2020-06-21 08:57:47

Apache Spark Streaming-教案

Spark Streaming 流計算定義一般流式計算會與批量計算相比較。在流式計算模型中，輸入是持續的，可以認爲在時間上是無界的，也就意味着，永遠拿不到全量數據去做計算。同時，計算結果是持續輸出的，也即計算結果在時間上也是無界

麦田里的守望者·

2020-06-21 08:57:47

Spark Yarn|Standalone

作者：jiangzz 電話：15652034180 微信：jiangzz_wx 微信公衆賬號：jiangzz_wy 環境搭建 Hadoop環境設置CentOS進程數和文件數(重啓生效) [root@CentOS ~]# vi

麦田里的守望者·

2020-06-21 08:57:47

Structured Stream-结构化流-章节1

麦田里的守望者·

2020-03-03 20:16:42

Apache Spark-[共享变量、广播变量、计数器、计算流程]

麦田里的守望者·

2020-02-28 09:07:54

Apache Spark 转换算子详解

麦田里的守望者·

2020-02-24 08:00:09

Apache Spark-[概述和安装]

概述 Spark是一個快如閃電的統一分析引擎（計算框架）用於大規模數據集的處理。Spark在做數據的批處理計算，計算性能大約是Hadoop MapReduce的10~100倍，因爲Spark使用比較先進的基於DAG任務調度，可以將

麦田里的守望者·

2020-06-21 08:57:58

Spark对接Hive

修改hive-site.xml <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://CentOS:3306/hive?c

麦田里的守望者·

2020-06-21 08:57:58

Spark Catalyst初识

Spark Catalyst 最近想來，大數據相關技術與傳統型數據庫技術很多都是相互融合、互相借鑑的。傳統型數據庫強勢在於其久經考驗的SQL優化器經驗，弱勢在於分佈式領域的高可用性、容錯性、擴展性等，假以時日，讓其經過一定的改造，

麦田里的守望者·

2020-06-21 08:57:47

Apache Spark Streaming-教案

Spark Streaming 流計算定義一般流式計算會與批量計算相比較。在流式計算模型中，輸入是持續的，可以認爲在時間上是無界的，也就意味着，永遠拿不到全量數據去做計算。同時，計算結果是持續輸出的，也即計算結果在時間上也是無界

麦田里的守望者·

2020-06-21 08:57:47

Spark Yarn|Standalone

作者：jiangzz 電話：15652034180 微信：jiangzz_wx 微信公衆賬號：jiangzz_wy 環境搭建 Hadoop環境設置CentOS進程數和文件數(重啓生效) [root@CentOS ~]# vi

麦田里的守望者·

2020-06-21 08:57:47

Structured Stream-结构化流-章节1

麦田里的守望者·

2020-03-03 20:16:42

Apache Spark-[共享变量、广播变量、计数器、计算流程]

麦田里的守望者·

2020-02-28 09:07:54

24小時熱門文章

最新文章

最新評論文章