Flink之大数据计算框架的特性分析

原創

2019-05-06 02:11

Apache Flink

Flink以数据并行和流水线方式执行任意流数据程序，Flink的流水线运行时系统可以执行批处理和流处理程序。

Flink框架的主要特征包括：

高吞吐＆低延时（真·流处理）
高可靠性（状态存储）
支持流处理、批处理，还提供CEP（复合事件处理）、ML（机器学习）、SQL的API（All in One）

Flink组件栈

API支持

对Streaming数据类应用，提供DataStream API
对批处理类应用，提供DataSet API（支持Java/Scala）

整合支持

支持Flink on YARN
支持HDFS
支持来自Kafka的输入数据
支持Apache HBase
支持Hadoop程序
支持Tachyon
支持ElasticSearch
支持RabbitMQ
支持Apache Storm
支持S3
支持XtreemFS

Spark与Flink拥有类似功能，两者主要区别包括：
Spark处理数据的单位是一批而不是单条，而数据采集却是逐条进行的，本质上是micro-batch的处理方式。因此 Spark Streaming系统需要设置间隔使得数据汇总到一定的量后再一并操作，这个间隔就是批处理间隔。
Flink 的基本数据模型是数据流，及事件（Event）的序列。数据流作为数据的基本模型可能没有表或者数据块直观熟悉，但是可以证明是完全等效的。流可以是无边界的无限流，即一般意义上的流处理。也可以是有边界的有限流，这样就是批处理。
基于不同的底层数据模型，Flink能提供毫秒级的实时处理，Spark能提供秒级的实时处理。

Flink Streaming特性
高吞吐率和低延迟
Flink 的流处理引擎只需要很少配置就能实现高吞吐率和低延迟。下图展示了一个分布式计数的任务的性能，包括了流数据 shuffle 过程。

支持 Event Time 和乱序事件

Flink 支持了流处理和 Event Time 语义的窗口机制，Event time 使得计算乱序到达的事件或可能延迟到达的事件更加简单。Event Time的时间包括：

Processing Time
Event Time
Ingestion Time

状态计算的Exactly-once

流程序可以在计算过程中维护自定义状态，Flink 的 checkpointing 机制保证了即时在故障发生下也能保障状态的 exactly once 语义。

灵活的时间窗口
Flink 支持在时间窗口，统计窗口，session 窗口，以及数据驱动的窗口，窗口可以通过灵活的触发条件来定制，以支持复杂的流计算模式。

带反压的连续流模型
数据流应用执行的是不间断的（常驻）operators。

Flink streaming 在运行时有着天然的流控：慢的数据 sink 节点会反压（backpressure）快的数据源（sources）。

容错性
Flink 的容错机制是基于 Chandy-Lamport distributed snapshots 来实现的。

这种机制是非常轻量级的，允许系统拥有高吞吐率的同时还能提供强一致性的保障

Batch 和 Streaming 一个系统流处理和批处理共用一个引擎
Flink 为流处理和批处理应用公用一个通用的引擎。批处理应用可以以一种特殊的流处理应用高效地运行。

内存管理
Flink 在 JVM 中实现了自己的内存管理。

应用可以超出主内存的大小限制，并且承受更少的垃圾收集的开销

迭代和增量迭代
Flink 具有迭代计算的专门支持（比如在机器学习和图计算中）。

增量迭代可以利用依赖计算来更快地收敛。

自动调优
批处理程序会自动地优化一些场景，比如避免一些昂贵的操作（如 shuffles 和 sorts），还有缓存一些中间数据。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

在spark，MapReduce 或 Flink 程序里面制定环境变量

以jdk來舉例，當我們需要更高版本的jdk時，而默認的環境引用的是低版本的jdk，會引發如下錯誤： Exception in thread "main" java.lang.UnsupportedClassVersionError:

梦里却知是客

2020-07-08 11:59:58

flink 1.11 发布了，聊聊自己的工作和开源

flink 1.11 版本發佈了.有幸給flink貢獻了幾個PR，第一次讓名字出現在了apache的官方網站上。 https://flink.apache.org/news/2020/07/06/release-1.11.0.ht

大数据技术与应用实战

2020-07-08 11:07:06

Flink实战教程-自定义函数之标量函数

文章目錄背景實例講解定義函數通過程序註冊函數通過sql註冊函數背景 flink本身給我們提供了大量的內置函數，已經能滿足我們絕大部分的需求，但是如果確實是碰到了一些特殊的場景，無法滿足我們的需求的時候，我們可以自定義函數來解決，

大数据技术与应用实战

2020-07-08 11:07:06

Flink教程-flink 1.11使用sql将流式数据写入文件系统

文章目錄滾動策略分區提交分區提交觸發器分區時間的抽取分區提交策略完整示例定義實體類自定義source寫入file flink提供了一個file system connector，可以使用DDL創建一個table，然後使用sql的方

大数据技术与应用实战

2020-07-08 11:07:06

Flink教程-flink 1.11 流式数据ORC格式写入file

文章目錄StreamingFileSink簡介寫入orc工廠類向量化操作構造OrcBulkWriterFactory實例講解構造source構造OrcBulkWriterFactory構造StreamingFileSink 在fl

大数据技术与应用实战

2020-07-08 11:07:06

flink设置historyserver

可以參考下官網https://ci.apache.org/projects/flink/flink-docs-release-1.8/monitoring/historyserver.html 1：配置conf/flink-conf.ya

梦里却知是客

2020-07-08 11:59:58

大数据流处理-我为什么选择Apache Flink

文章目錄真正的流處理低延遲高吞吐多種窗口自帶狀態(state)精確一次傳輸語義時間管理水印複雜事件處理隨着這幾年大數據技術的迅猛發展，人們對於處理數據的要求也越來越高，由最早的MapReduce，到後來的hive、再到後來的sp

大数据技术与应用实战

2020-07-08 11:07:06

Flink实战教程系列

前言這個flink實戰教程系列把我在工作和學習中遇到的一些例子整理一下，從入門，原理，然後到源碼都有所涉及，並提供大家可以正常運行的代碼。同時也是給自己做一個筆記，有時候稍微時間長一點不用，就會忘了，所以好記性不如爛筆頭。如果

大数据技术与应用实战

2020-07-08 11:07:06

Flink实战教程-自定义函数之TableFunction

文章目錄自定義函數單個eval方法多個eval方法不固定參數通過註解指定返回類型註冊函數構造數據源查詢left joinjoin多種類型參數不固定參數類型今天我們來聊聊flink sql中另外一種自定義函數-TableFunti

大数据技术与应用实战

2020-07-08 11:07:06

flink实战教程-集群的部署

文章目錄MiniClusterStandaloneyarnyarn sessionyarn per jobapplication模式k8s其他 MiniCluster 這種模式我們一般是在用IDE調試程序的時候用到,當我們在本地用

大数据技术与应用实战

2020-07-08 11:07:05

flink整合apollo

1.使用flink的maven骨架快速創建一個maven項目 2.添加apollo及其他所需依賴  <dependency> <groupId>com.ctrip.framework.apoll

2020-07-08 10:43:37

flink reduce算子

reduce算子是flink流處理中的一個聚合算子，可以對屬於同一個分組的數據進行一些聚合操作。但有一點需要注意，就是在需要對聚合結果進行除聚合操作之外的操作時，有可能會失效。比如下面一段代碼： public static void

2020-07-08 10:43:37

exceeded the 80 characters length limit and was truncated.

flink任務在idea調試時沒有問題，但提交到standalone集羣上運行時，發現沒有數據。看日誌發現下面這段信息： 2020-06-04 21:05:05,897 WARN org.apache.flink.metrics.Me

2020-07-08 10:43:36

flink countWindow计算每个学生的总成绩

需求假設學校的財務系統要出一個新功能，類似於年度賬單。統計每個學生過去一年往一卡通中的總充值金額。其實這種需求完全不用開窗，可以直接使用批處理，groupBy()後reduce()即可。當然，也可以使用流處理通過開窗實現聚合。下面分

2020-07-08 10:43:36

flink1.10配置rocksdb保存checkpoint时，idea运行报错

首先，使用rocksdb需要引入依賴：  <d

2020-07-08 10:43:26

24小時熱門文章

最新文章

最新評論文章