#Spark流計算-章節1

概述

一般流式計算會與批量計算相比較。在流式計算模型中,輸入是持續的,可以認爲在時間上是無界的,也就意味着,永遠拿不到全量數據去做計算。同時,計算結果是持續輸出的,也即計算結果在時間上也是無界的。流式計算一般對實時性要求較高,同時一般是先定義目標計算,然後數據到來之後將計算邏輯應用於數據。同時爲了提高計算效率,往往儘可能採用增量計算代替全量計算。批量處理模型中,一般先有全量數據集,然後定義計算邏輯,並將計算應用於全量數據。特點是全量計算,並且計算結果一次性全量輸出。
在這裏插入圖片描述
批處理 VS 流處理區別

目前主流流處理框架:Kafka Streaming、Storm(JStrom)、Spark Streaming 、Flink(BLink)

  • Kafka Streaming:是一套基於Kafka-Streaming庫的一套流計算工具jar包,具有入門門檻低,簡單容易集成等特點。

  • Apache Storm:一款純粹的流計算引擎,能夠達到每秒鐘百萬級別數據的低延遲處理框架。

  • Spark Streaming:是構建在Spark 批處理之上一款流處理框架。與批處理不同的是,流處理計算的數據是無界數據流,輸出也是持續的。Spark Streaming底層將Spark RDD Batch 拆分成 Macro RDD Batch實現類似流處理的功能。因此spark Streaming在微觀上依舊是批處理框架。
    html>

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章