Apache Flink之架構概述和環境(章節一)

作者:jiangzz 電話:15652034180 微信:jiangzz_wx 微信公衆賬號:jiangzz_wy

背景介紹

繼Spark之後第三代內存計算框架Flink應運而生,Flink作爲第三代計算框架Flink吸取了二代大數據Spark計算的設計的精華,依然採用DAG模型做任務拆分,但是Spark在流處理領域上因爲微觀批處理實時性不高甚至在性能上還不能和一代流處理框架Storm匹敵。因此第三代計算引擎Flink誕生了,主要原因是Flink是一個純流式計算引擎,而類似於Spark這種微批的引擎,只是Flink流式引擎的一個特例。在這一點上Flink的設計思路恰恰和Spark的實現相反。
如下圖所示,Spark的模塊和架構棧是基於RDD批處理實現的核心計算引擎,然後是在批處理之上實現了 DStream (微觀批處理),所以導致了Spark Streaming在流處理的領域避免不了批處理延遲較高的詬病。
在這裏插入圖片描述
Apache Flink是一個框架和分佈式處理引擎,用於對無界和有界數據流進行狀態計算。因此可以看出針對有界數據的計算其實本質就是批處理,對於無界數據就是Flink中的流處理。所以對於Flink而言在實現上是站在流處理的概念上實現批處理,但是Spark計算卻是站在批處理的視角上實現流處理。
html>

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章