Flink 是如何保證 Exactly-once語義的？

原創

全宇宙的骄傲

2020-06-07 18:21

Flink 通過實現兩階段提交和狀態保存來實現端到端的一致性語義。

分爲以下幾個步驟：

開始事務（beginTransaction）創建一個臨時文件夾，來寫把數據寫入到這個文件夾裏面。
預提交（preCommit）將內存中緩存的數據寫入文件並關閉。
正式提交（commit）將之前寫完的臨時文件放入目標目錄下。這代表着最終的數據會有一些延遲。
丟棄（abort）丟棄臨時文件。

若失敗發生在預提交成功後，正式提交前。可以根據狀態來提交預提交的數據，也可刪除預提交的數據。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Flink 三種狀態存儲方式 MemoryStateBackend、FsStateBackend、RocksDBStateBackend

StateBackend的意思是狀態後端。狀態後端定義了流式應用程序狀態如何存儲和checkpoint的。不同的狀態後端以不同的方式來存儲其狀態，並且使用不同的數據結構來保存正在運行的應用程序的狀態。 MemoryStateBack

二十六画生的博客

2020-07-07 23:55:04

Flink DataSet partitionByRange sortPartition 用法實例

package DataSetPartitionTest1; import org.apache.flink.api.common.functions.MapFunction; import org.apache.flink.api.

二十六画生的博客

2020-07-07 23:55:04

Flink ClassNotFoundException BatchTableEnvironmentImpl 報錯解決方法

Exception in thread "main" org.apache.flink.table.api.TableException: Create BatchTableEnvironment failed. at org.a

二十六画生的博客

2020-07-07 23:55:04

Flink 分佈式緩存廣播變量區別

區別: 1.廣播變量是基於內存的,是將變量分發到各個worker節點的內存上（避免多次複製，節省內存） 2.分佈式緩存是基於磁盤的,將文件copy到各個節點上,當函數運行時可以在本地文件系統檢索該文件（避免多次複製，提高執行效率）分

二十六画生的博客

2020-07-07 23:55:04

Flink 廣播變量實例

版本： flink1.9.2,java1.8 廣播變量用於DataSet： package BroadCast; import org.apache.flink.api.common.functions.RichMapFunction

二十六画生的博客

2020-07-07 23:55:04

Flink 分佈式緩存實例

版本： flink1.9.2,java1.8 package DistributedCache; import org.apache.commons.io.FileUtils; import org.apache.flink.api.

二十六画生的博客

2020-07-07 23:55:04

Flink 數據類型 & TypeInformation信息

原生數據類型 Java Tuples類型 Scala Case Class類型 POJOs 類型 Flink Value類型特殊數據類型 Scala API類型信息 Java API類型信息自定義TypeInformation Fli

程序猿进阶

2020-07-08 06:02:55

Flink的WaterMark詳解

WaterMark是什麼？在瞭解Flink的WaterMark之前先要了解Flink的時間語義。在Flink裏面有三種時間語義： ①Even Time：事件創建的時間，時間在數據裏面。 ②Ingestion Time：數據進

情深不仅李义山

2020-07-08 01:13:18

flink sql實例， TableException: Create BatchTableEnvironment failed.報錯

package SQL; import org.apache.flink.api.java.DataSet; import org.apache.flink.api.java.ExecutionEnvironment; import

二十六画生的博客

2020-07-07 23:55:04

Flink Keyed State ，Operator State 作用區別用法

Flink的State類型基本類型劃分：在Flink中，按照基本類型，對State做了以下兩類的劃分： Keyed State，和Key有關的狀態類型，它只能被基於KeyedStream之上的操作，方法所使用。我們可以從邏輯上理解這

二十六画生的博客

2020-07-07 23:55:04

Flink Operator State 實例實現CheckpointedFunction

public interface CheckpointedFunction { // Checkpoint觸發時會調用這個方法，我們要實現具體的snapshot邏輯，比如將哪些本地狀態持久化 void snapshotSt

二十六画生的博客

2020-07-07 23:55:04

Flink 累加器實例

每個並行的任務實例下有各自的累加器，獲取最終值時會把各個並行任務的累加器的值求和。（一個並行度對應一個累加器）版本: flink1.9.2 java1.8 map並行度1: package Counter; import or

二十六画生的博客

2020-07-07 23:55:04

Flink DataSet first groupBy sortGroup 用法實例

public class CoGroupDataSetTest { public static void main(String[] args) throws Exception { ExecutionEnv

二十六画生的博客

2020-07-07 23:55:04

Flink Keyed State 實例

1 sourceStream必須要先keyBy然後才能使用Keyed State 2 需要繼承RichxxxxFunction纔行，在open之前聲明，在open中初始化，在算子方法中使用和處理。不能繼承xxxxxFunction，因爲沒

二十六画生的博客

2020-07-07 23:55:04

Flink Operator State 實例實現ListCheckpointed

public interface ListCheckpointed<T extends Serializable> { // Checkpoint觸發時會調用這個方法，我們要實現具體的snapshot邏輯，比如將哪些本地狀態持久化

二十六画生的博客

2020-07-07 23:55:04

24小時熱門文章

python gdal 安裝使用（Windows， python 3.6.8）

Flink 是如何保證 Exactly-once語義的？

python gdal 安裝使用（Windows， python 3.6.8）

Flink分區策略

Flink 什麼情況下才會把 Operator chain 在一起形成算子鏈？

Java深入淺出之HashMap

Java深入淺出之String

Java深入淺出之線程

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結