Flink 相比傳統的 Spark Streaming 區別?

原創

全宇宙的骄傲

2020-06-07 18:21

這個問題是一個非常宏觀的問題，因爲兩個框架的不同點非常之多。但是在面試時有非常重要的一點一定要回答出來：Flink 是標準的實時處理引擎，基於事件驅動。而 Spark Streaming 是微批（Micro-Batch）的模型。

下面我們就分幾個方面介紹兩個框架的主要區別：

架構模型：Spark Streaming 在運行時的主要角色包括：Master、Worker、Driver、Executor， Flink 在運行時主要包:Jobmanager、Taskmanager 和 Slot。
任務調度：Spark Streaming 連續不斷的生成微小的數據批次，構建有向無環圖 DAG， Spark Streaming 會依次創DStreamGraph、JobGenerator、JobScheduler。Flink 根據用戶提交的代碼生成 StreamGraph，經過優化生成 JobGraph，然後提交給JobManager 進行處理， JobManager 會根據 JobGraph 生成 ExecutionGraph，ExecutionGraph 是 Flink 調度最核心的數據結構，JobManager 根據 ExecutionGraph 對 Job 進行調度。
時間機制：Spark Streaming 支持的時間機制有限，只支持處理時間。 Flink 支持了流處理程序在時間上的三個定義：處理時間、事件時間、注入時間。同時也支持 watermark 機制來處理滯後數據。
容錯機制：對於 Spark Streaming 任務，我們可以設置 checkpoint，然後假如發生故障並重啓，我們可以從上次 checkpoint 之處恢復，但是這個行爲只能使得數據不丟失，可能會重複處理，不能做到恰好一次處理語義。Flink 則使用兩階段提交協議來解決這個問題。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Flink 三種狀態存儲方式 MemoryStateBackend、FsStateBackend、RocksDBStateBackend

StateBackend的意思是狀態後端。狀態後端定義了流式應用程序狀態如何存儲和checkpoint的。不同的狀態後端以不同的方式來存儲其狀態，並且使用不同的數據結構來保存正在運行的應用程序的狀態。 MemoryStateBack

二十六画生的博客

2020-07-07 23:55:04

Flink DataSet partitionByRange sortPartition 用法實例

package DataSetPartitionTest1; import org.apache.flink.api.common.functions.MapFunction; import org.apache.flink.api.

二十六画生的博客

2020-07-07 23:55:04

Flink ClassNotFoundException BatchTableEnvironmentImpl 報錯解決方法

Exception in thread "main" org.apache.flink.table.api.TableException: Create BatchTableEnvironment failed. at org.a

二十六画生的博客

2020-07-07 23:55:04

Flink 分佈式緩存廣播變量區別

區別: 1.廣播變量是基於內存的,是將變量分發到各個worker節點的內存上（避免多次複製，節省內存） 2.分佈式緩存是基於磁盤的,將文件copy到各個節點上,當函數運行時可以在本地文件系統檢索該文件（避免多次複製，提高執行效率）分

二十六画生的博客

2020-07-07 23:55:04

Flink 廣播變量實例

版本： flink1.9.2,java1.8 廣播變量用於DataSet： package BroadCast; import org.apache.flink.api.common.functions.RichMapFunction

二十六画生的博客

2020-07-07 23:55:04

Flink 分佈式緩存實例

版本： flink1.9.2,java1.8 package DistributedCache; import org.apache.commons.io.FileUtils; import org.apache.flink.api.

二十六画生的博客

2020-07-07 23:55:04

Flink 數據類型 & TypeInformation信息

原生數據類型 Java Tuples類型 Scala Case Class類型 POJOs 類型 Flink Value類型特殊數據類型 Scala API類型信息 Java API類型信息自定義TypeInformation Fli

程序猿进阶

2020-07-08 06:02:55

Flink的WaterMark詳解

WaterMark是什麼？在瞭解Flink的WaterMark之前先要了解Flink的時間語義。在Flink裏面有三種時間語義： ①Even Time：事件創建的時間，時間在數據裏面。 ②Ingestion Time：數據進

情深不仅李义山

2020-07-08 01:13:18

flink sql實例， TableException: Create BatchTableEnvironment failed.報錯

package SQL; import org.apache.flink.api.java.DataSet; import org.apache.flink.api.java.ExecutionEnvironment; import

二十六画生的博客

2020-07-07 23:55:04

Flink Keyed State ，Operator State 作用區別用法

Flink的State類型基本類型劃分：在Flink中，按照基本類型，對State做了以下兩類的劃分： Keyed State，和Key有關的狀態類型，它只能被基於KeyedStream之上的操作，方法所使用。我們可以從邏輯上理解這

二十六画生的博客

2020-07-07 23:55:04

Flink Operator State 實例實現CheckpointedFunction

public interface CheckpointedFunction { // Checkpoint觸發時會調用這個方法，我們要實現具體的snapshot邏輯，比如將哪些本地狀態持久化 void snapshotSt

二十六画生的博客

2020-07-07 23:55:04

Flink 累加器實例

每個並行的任務實例下有各自的累加器，獲取最終值時會把各個並行任務的累加器的值求和。（一個並行度對應一個累加器）版本: flink1.9.2 java1.8 map並行度1: package Counter; import or

二十六画生的博客

2020-07-07 23:55:04

Flink DataSet first groupBy sortGroup 用法實例

public class CoGroupDataSetTest { public static void main(String[] args) throws Exception { ExecutionEnv

二十六画生的博客

2020-07-07 23:55:04

Flink Keyed State 實例

1 sourceStream必須要先keyBy然後才能使用Keyed State 2 需要繼承RichxxxxFunction纔行，在open之前聲明，在open中初始化，在算子方法中使用和處理。不能繼承xxxxxFunction，因爲沒

二十六画生的博客

2020-07-07 23:55:04

Flink Operator State 實例實現ListCheckpointed

public interface ListCheckpointed<T extends Serializable> { // Checkpoint觸發時會調用這個方法，我們要實現具體的snapshot邏輯，比如將哪些本地狀態持久化

二十六画生的博客

2020-07-07 23:55:04

24小時熱門文章

最新文章

最新評論文章