#Spark流計算-章節1

原創

麦田里的守望者·

2020-06-21 08:57

概述

一般流式計算會與批量計算相比較。在流式計算模型中，輸入是持續的，可以認爲在時間上是無界的，也就意味着，永遠拿不到全量數據去做計算。同時，計算結果是持續輸出的，也即計算結果在時間上也是無界的。流式計算一般對實時性要求較高，同時一般是先定義目標計算，然後數據到來之後將計算邏輯應用於數據。同時爲了提高計算效率，往往儘可能採用增量計算代替全量計算。批量處理模型中，一般先有全量數據集，然後定義計算邏輯，並將計算應用於全量數據。特點是全量計算，並且計算結果一次性全量輸出。

批處理 VS 流處理區別

目前主流流處理框架：Kafka Streaming、Storm（JStrom）、Spark Streaming 、Flink（BLink）

Kafka Streaming:是一套基於Kafka-Streaming庫的一套流計算工具jar包，具有入門門檻低，簡單容易集成等特點。
Apache Storm:一款純粹的流計算引擎，能夠達到每秒鐘百萬級別數據的低延遲處理框架。
Spark Streaming：是構建在Spark 批處理之上一款流處理框架。與批處理不同的是，流處理計算的數據是無界數據流，輸出也是持續的。Spark Streaming底層將Spark RDD Batch 拆分成 Macro RDD Batch實現類似流處理的功能。因此spark Streaming在微觀上依舊是批處理框架。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Apache Spark-[概述和安裝]

概述 Spark是一個快如閃電的統一分析引擎（計算框架）用於大規模數據集的處理。Spark在做數據的批處理計算，計算性能大約是Hadoop MapReduce的10~100倍，因爲Spark使用比較先進的基於DAG任務調度，可以將

麦田里的守望者·

2020-06-21 08:57:58

Spark對接Hive

修改hive-site.xml <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://CentOS:3306/hive?c

麦田里的守望者·

2020-06-21 08:57:58

Spark Catalyst初識

Spark Catalyst 最近想來，大數據相關技術與傳統型數據庫技術很多都是相互融合、互相借鑑的。傳統型數據庫強勢在於其久經考驗的SQL優化器經驗，弱勢在於分佈式領域的高可用性、容錯性、擴展性等，假以時日，讓其經過一定的改造，

麦田里的守望者·

2020-06-21 08:57:47

Apache Spark Streaming-教案

Spark Streaming 流計算定義一般流式計算會與批量計算相比較。在流式計算模型中，輸入是持續的，可以認爲在時間上是無界的，也就意味着，永遠拿不到全量數據去做計算。同時，計算結果是持續輸出的，也即計算結果在時間上也是無界

麦田里的守望者·

2020-06-21 08:57:47

Spark Yarn|Standalone

作者：jiangzz 電話：15652034180 微信：jiangzz_wx 微信公衆賬號：jiangzz_wy 環境搭建 Hadoop環境設置CentOS進程數和文件數(重啓生效) [root@CentOS ~]# vi

麦田里的守望者·

2020-06-21 08:57:47

Structured Stream-結構化流-章節1

麦田里的守望者·

2020-03-03 20:16:42

Apache Spark-[共享變量、廣播變量、計數器、計算流程]

麦田里的守望者·

2020-02-28 09:07:54

Apache Spark 轉換算子詳解

麦田里的守望者·

2020-02-24 08:00:09

Apache Spark-[概述和安裝]

概述 Spark是一個快如閃電的統一分析引擎（計算框架）用於大規模數據集的處理。Spark在做數據的批處理計算，計算性能大約是Hadoop MapReduce的10~100倍，因爲Spark使用比較先進的基於DAG任務調度，可以將

麦田里的守望者·

2020-06-21 08:57:58

Spark對接Hive

修改hive-site.xml <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://CentOS:3306/hive?c

麦田里的守望者·

2020-06-21 08:57:58

Spark Catalyst初識

Spark Catalyst 最近想來，大數據相關技術與傳統型數據庫技術很多都是相互融合、互相借鑑的。傳統型數據庫強勢在於其久經考驗的SQL優化器經驗，弱勢在於分佈式領域的高可用性、容錯性、擴展性等，假以時日，讓其經過一定的改造，

麦田里的守望者·

2020-06-21 08:57:47

Apache Spark Streaming-教案

Spark Streaming 流計算定義一般流式計算會與批量計算相比較。在流式計算模型中，輸入是持續的，可以認爲在時間上是無界的，也就意味着，永遠拿不到全量數據去做計算。同時，計算結果是持續輸出的，也即計算結果在時間上也是無界

麦田里的守望者·

2020-06-21 08:57:47

Spark Yarn|Standalone

作者：jiangzz 電話：15652034180 微信：jiangzz_wx 微信公衆賬號：jiangzz_wy 環境搭建 Hadoop環境設置CentOS進程數和文件數(重啓生效) [root@CentOS ~]# vi

麦田里的守望者·

2020-06-21 08:57:47

Structured Stream-結構化流-章節1

麦田里的守望者·

2020-03-03 20:16:42

Apache Spark-[共享變量、廣播變量、計數器、計算流程]

麦田里的守望者·

2020-02-28 09:07:54

24小時熱門文章

最新文章

最新評論文章