Flink之大數據計算框架的特性分析

原創

2019-05-06 02:11

Apache Flink

Flink以數據並行和流水線方式執行任意流數據程序，Flink的流水線運行時系統可以執行批處理和流處理程序。

Flink框架的主要特徵包括：

高吞吐＆低延時（真·流處理）
高可靠性（狀態存儲）
支持流處理、批處理，還提供CEP（複合事件處理）、ML（機器學習）、SQL的API（All in One）

Flink組件棧

API支持

對Streaming數據類應用，提供DataStream API
對批處理類應用，提供DataSet API（支持Java/Scala）

整合支持

支持Flink on YARN
支持HDFS
支持來自Kafka的輸入數據
支持Apache HBase
支持Hadoop程序
支持Tachyon
支持ElasticSearch
支持RabbitMQ
支持Apache Storm
支持S3
支持XtreemFS

Spark與Flink擁有類似功能，兩者主要區別包括：
Spark處理數據的單位是一批而不是單條，而數據採集卻是逐條進行的，本質上是micro-batch的處理方式。因此 Spark Streaming系統需要設置間隔使得數據彙總到一定的量後再一併操作，這個間隔就是批處理間隔。
Flink 的基本數據模型是數據流，及事件（Event）的序列。數據流作爲數據的基本模型可能沒有表或者數據塊直觀熟悉，但是可以證明是完全等效的。流可以是無邊界的無限流，即一般意義上的流處理。也可以是有邊界的有限流，這樣就是批處理。
基於不同的底層數據模型，Flink能提供毫秒級的實時處理，Spark能提供秒級的實時處理。

Flink Streaming特性
高吞吐率和低延遲
Flink 的流處理引擎只需要很少配置就能實現高吞吐率和低延遲。下圖展示了一個分佈式計數的任務的性能，包括了流數據 shuffle 過程。

支持 Event Time 和亂序事件

Flink 支持了流處理和 Event Time 語義的窗口機制，Event time 使得計算亂序到達的事件或可能延遲到達的事件更加簡單。Event Time的時間包括：

Processing Time
Event Time
Ingestion Time

狀態計算的Exactly-once

流程序可以在計算過程中維護自定義狀態，Flink 的 checkpointing 機制保證了即時在故障發生下也能保障狀態的 exactly once 語義。

靈活的時間窗口
Flink 支持在時間窗口，統計窗口，session 窗口，以及數據驅動的窗口，窗口可以通過靈活的觸發條件來定製，以支持複雜的流計算模式。

帶反壓的連續流模型
數據流應用執行的是不間斷的（常駐）operators。

Flink streaming 在運行時有着天然的流控：慢的數據 sink 節點會反壓（backpressure）快的數據源（sources）。

容錯性
Flink 的容錯機制是基於 Chandy-Lamport distributed snapshots 來實現的。

這種機制是非常輕量級的，允許系統擁有高吞吐率的同時還能提供強一致性的保障

Batch 和 Streaming 一個系統流處理和批處理共用一個引擎
Flink 爲流處理和批處理應用公用一個通用的引擎。批處理應用可以以一種特殊的流處理應用高效地運行。

內存管理
Flink 在 JVM 中實現了自己的內存管理。

應用可以超出主內存的大小限制，並且承受更少的垃圾收集的開銷

迭代和增量迭代
Flink 具有迭代計算的專門支持（比如在機器學習和圖計算中）。

增量迭代可以利用依賴計算來更快地收斂。

自動調優
批處理程序會自動地優化一些場景，比如避免一些昂貴的操作（如 shuffles 和 sorts），還有緩存一些中間數據。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

在spark，MapReduce 或 Flink 程序裏面制定環境變量

以jdk來舉例，當我們需要更高版本的jdk時，而默認的環境引用的是低版本的jdk，會引發如下錯誤： Exception in thread "main" java.lang.UnsupportedClassVersionError:

梦里却知是客

2020-07-08 11:59:58

flink 1.11 發佈了，聊聊自己的工作和開源

flink 1.11 版本發佈了.有幸給flink貢獻了幾個PR，第一次讓名字出現在了apache的官方網站上。 https://flink.apache.org/news/2020/07/06/release-1.11.0.ht

大数据技术与应用实战

2020-07-08 11:07:06

Flink實戰教程-自定義函數之標量函數

文章目錄背景實例講解定義函數通過程序註冊函數通過sql註冊函數背景 flink本身給我們提供了大量的內置函數，已經能滿足我們絕大部分的需求，但是如果確實是碰到了一些特殊的場景，無法滿足我們的需求的時候，我們可以自定義函數來解決，

大数据技术与应用实战

2020-07-08 11:07:06

Flink教程-flink 1.11使用sql將流式數據寫入文件系統

文章目錄滾動策略分區提交分區提交觸發器分區時間的抽取分區提交策略完整示例定義實體類自定義source寫入file flink提供了一個file system connector，可以使用DDL創建一個table，然後使用sql的方

大数据技术与应用实战

2020-07-08 11:07:06

Flink教程-flink 1.11 流式數據ORC格式寫入file

文章目錄StreamingFileSink簡介寫入orc工廠類向量化操作構造OrcBulkWriterFactory實例講解構造source構造OrcBulkWriterFactory構造StreamingFileSink 在fl

大数据技术与应用实战

2020-07-08 11:07:06

flink設置historyserver

可以參考下官網https://ci.apache.org/projects/flink/flink-docs-release-1.8/monitoring/historyserver.html 1：配置conf/flink-conf.ya

梦里却知是客

2020-07-08 11:59:58

大數據流處理-我爲什麼選擇Apache Flink

文章目錄真正的流處理低延遲高吞吐多種窗口自帶狀態(state)精確一次傳輸語義時間管理水印複雜事件處理隨着這幾年大數據技術的迅猛發展，人們對於處理數據的要求也越來越高，由最早的MapReduce，到後來的hive、再到後來的sp

大数据技术与应用实战

2020-07-08 11:07:06

Flink實戰教程系列

前言這個flink實戰教程系列把我在工作和學習中遇到的一些例子整理一下，從入門，原理，然後到源碼都有所涉及，並提供大家可以正常運行的代碼。同時也是給自己做一個筆記，有時候稍微時間長一點不用，就會忘了，所以好記性不如爛筆頭。如果

大数据技术与应用实战

2020-07-08 11:07:06

Flink實戰教程-自定義函數之TableFunction

文章目錄自定義函數單個eval方法多個eval方法不固定參數通過註解指定返回類型註冊函數構造數據源查詢left joinjoin多種類型參數不固定參數類型今天我們來聊聊flink sql中另外一種自定義函數-TableFunti

大数据技术与应用实战

2020-07-08 11:07:06

flink實戰教程-集羣的部署

文章目錄MiniClusterStandaloneyarnyarn sessionyarn per jobapplication模式k8s其他 MiniCluster 這種模式我們一般是在用IDE調試程序的時候用到,當我們在本地用

大数据技术与应用实战

2020-07-08 11:07:05

flink整合apollo

1.使用flink的maven骨架快速創建一個maven項目 2.添加apollo及其他所需依賴  <dependency> <groupId>com.ctrip.framework.apoll

2020-07-08 10:43:37

flink reduce算子

reduce算子是flink流處理中的一個聚合算子，可以對屬於同一個分組的數據進行一些聚合操作。但有一點需要注意，就是在需要對聚合結果進行除聚合操作之外的操作時，有可能會失效。比如下面一段代碼： public static void

2020-07-08 10:43:37

exceeded the 80 characters length limit and was truncated.

flink任務在idea調試時沒有問題，但提交到standalone集羣上運行時，發現沒有數據。看日誌發現下面這段信息： 2020-06-04 21:05:05,897 WARN org.apache.flink.metrics.Me

2020-07-08 10:43:36

flink countWindow計算每個學生的總成績

需求假設學校的財務系統要出一個新功能，類似於年度賬單。統計每個學生過去一年往一卡通中的總充值金額。其實這種需求完全不用開窗，可以直接使用批處理，groupBy()後reduce()即可。當然，也可以使用流處理通過開窗實現聚合。下面分

2020-07-08 10:43:36

flink1.10配置rocksdb保存checkpoint時，idea運行報錯

首先，使用rocksdb需要引入依賴：  <d

2020-07-08 10:43:26

24小時熱門文章

最新文章

最新評論文章