Flink狀態管理和容錯機制介紹

作者: 施曉罡

本文來自2018年8月11日在北京舉行的 Flink Meetup會議，分享來自於施曉罡，目前在阿里大數據團隊部從事Blink方面的研發，現在主要負責Blink狀態管理和容錯相關技術的研發。

本文主要內容如下：

有狀態的流數據處理；
Flink中的狀態接口；
狀態管理和容錯機制實現；
阿里相關工作介紹；

一.有狀態的流數據處理

1.1什麼是有狀態的計算

計算任務的結果不僅僅依賴於輸入，還依賴於它的當前狀態，其實大多數的計算都是有狀態的計算。比如wordcount,給一些word,其計算它的count,這是一個很常見的業務場景。count做爲輸出，在計算的過程中要不斷的把輸入累加到count上去，那麼count就是一個state。

1.2.傳統的流計算系統缺少對於程序狀態的有效支持

狀態數據的存儲和訪問；
狀態數據的備份和恢復；
狀態數據的劃分和動態擴容；

在傳統的批處理中，數據是劃分爲塊分片去完成的，然後每一個Task去處理一個分片。當分片執行完成後，把輸出聚合起來就是最終的結果。在這個過程當中，對於state的需求還是比較小的。

對於流計算而言，對State有非常高的要求，因爲在流系統中輸入是一個無限制的流，會運行很長一段時間，甚至運行幾天或者幾個月都不會停機。在這個過程當中，就需要將狀態數據很好的管理起來。很不幸的是，在傳統的流計算系統中，對狀態管理支持並不是很完善。比如storm,沒有任何程序狀態的支持，一種可選的方案是storm+hbase這樣的方式去實現，把這狀態數據存放在Hbase中，計算的時候再次從Hbase讀取狀態數據，做更新在寫入進去。這樣就會有如下幾個問題

流計算系統的任務和Hbase的數據存儲有可能不在同一臺機器上，導致性能會很差。這樣經常會做遠端的訪問，走網絡和存儲；
備份和恢復是比較困難，因爲Hbase是沒有回滾的，要做到Exactly onces很困難。在分佈式環境下，如果程序出現故障，只能重啓Storm，那麼Hbase的數據也就無法回滾到之前的狀態。比如廣告計費的這種場景，Storm+Hbase是是行不通的，出現的問題是錢可能就會多算，解決以上的辦法是Storm+mysql，通過mysql的回滾解決一致性的問題。但是架構會變得非常複雜。性能也會很差，要commit確保數據的一致性。
對於storm而言狀態數據的劃分和動態擴容也是非常難做，一個很嚴重的問題是所有用戶都會在strom上重複的做這些工作，比如搜索，廣告都要在做一遍，由此限制了部門的業務發展。

1.3.Flink豐富的狀態訪問和高效的容錯機制

Flink在最早設計的時候就意識到了這個問題，並提供了豐富的狀態訪問和容錯機制。如下圖所示：

二．Flink中的狀態管理

2.1.按照數據的劃分和擴張方式，Flink中大致分爲2類：

Keyed States
Operator States

2.1.1.Keyed States

Keyed States的使用

Flink也提供了Keyed States多種數據結構類型

Keyed States的動態擴容

2.1.2.Operator State

Operator States的使用

Operator States的數據結構不像Keyed States豐富，現在只支持List

Operator States多種擴展方式

Operator States的動態擴展是非常靈活的，現提供了3種擴展，下面分別介紹：

ListState:併發度在改變的時候，會將併發上的每個List都取出，然後把這些List合併到一個新的List,然後根據元素的個數在均勻分配給新的Task;
UnionListState:相比於ListState更加靈活，把劃分的方式交給用戶去做，當改變併發的時候，會將原來的List拼接起來。然後不做劃分，直接交給用戶；
BroadcastState:如大表和小表做Join時，小表可以直接廣播給大表的分區，在每個併發上的數據都是完全一致的。做的更新也相同，當改變併發的時候，把這些數據COPY到新的Task即可

以上是Flink Operator States提供的3種擴展方式，用戶可以根據自己的需求做選擇。

使用Checkpoint提高程序的可靠性

用戶可以根據的程序裏面的配置將checkpoint打開，給定一個時間間隔後，框架會按照時間間隔給程序的狀態進行備份。當發生故障時，Flink會將所有Task的狀態一起恢復到Checkpoint的狀態。從哪個位置開始重新執行。

Flink也提供了多種正確性的保障，包括：

AT LEAST ONCE;
Exactly once;

備份爲保存在State中的程序狀態數據

Flink也提供了一套機制，允許把這些狀態放到內存當中。做Checkpoint的時候，由Flink去完成恢復。

從已停止作業的運行狀態中恢復

當組件升級的時候，需要停止當前作業。這個時候需要從之前停止的作業當中恢復，Flink提供了2種機制恢復作業:

Savepoint:是一種特殊的checkpoint，只不過不像checkpoint定期的從系統中去觸發的，它是用戶通過命令觸發，存儲格式和checkpoint也是不相同的，會將數據按照一個標準的格式存儲，不管配置什麼樣，Flink都會從這個checkpoint恢復，是用來做版本升級一個非常好的工具；
External Checkpoint：對已有checkpoint的一種擴展，就是說做完一次內部的一次Checkpoint後，還會在用戶給定的一個目錄中，多存儲一份checkpoint的數據；

三．狀態管理和容錯機制實現

下面介紹一下狀態管理和容錯機制實現方式，Flink提供了3種不同的StateBackend

MemoryStateBackend
FsStateBackend
RockDBStateBackend

用戶可以根據自己的需求選擇，如果數據量較小，可以存放到MemoryStateBackend和FsStateBackend中，如果數據量較大，可以放到RockDB中。

下面介紹HeapKeyedStateBackend和RockDBKeyedStateBackend

第一，HeapKeyedStateBackend

第二，RockDBKeyedStateBackend

Checkpoint的執行流程

Checkpoint的執行流程是按照Chandy-Lamport算法實現的。

Checkpoint Barrier的對齊

全量Checkpoint

全量Checkpoint會在每個節點做備份數據時，只需要將數據都便利一遍，然後寫到外部存儲中，這種情況會影響備份性能。在此基礎上做了優化。

RockDB的增量Checkpoint

RockDB的數據會更新到內存，當內存滿時，會寫入到磁盤中。增量的機制會將新產生的文件COPY持久化中，而之前產生的文件就不需要COPY到持久化中去了。通過這種方式減少COPY的數據量，並提高性能。

四.阿里相關工作介紹

4.1.Flink在阿里的成長路線

阿里是從2015年開始調研Flink,2015年10月啓動Blink項目，並完善Flink在大規模生產下的一些優化和改進。2016年雙11採用了Blink系統，爲搜索，推薦，廣告業務提供服務。2017年5月Blink已成爲阿里的實時計算引擎。

4.2.阿里在狀態管理和容錯相關的工作

正在做的工作，基於State重構Window方面的一些優化，阿里也正在將功能做完善。後續將包括asynchronous Checkpoint的功能完善，並和社區進一步溝通和合作。幫助Flink社區完善相關方面的工作。

Flink狀態管理和容錯機制介紹

一.有狀態的流數據處理

1.1什麼是有狀態的計算

1.2.傳統的流計算系統缺少對於程序狀態的有效支持

1.3.Flink豐富的狀態訪問和高效的容錯機制

二．Flink中的狀態管理

2.1.按照數據的劃分和擴張方式，Flink中大致分爲2類：

2.1.1.Keyed States

2.1.2.Operator State

三．狀態管理和容錯機制實現

第一，HeapKeyedStateBackend

第二，RockDBKeyedStateBackend

Checkpoint的執行流程

Checkpoint Barrier的對齊

全量Checkpoint

RockDB的增量Checkpoint

四.阿里相關工作介紹

4.1.Flink在阿里的成長路線

4.2.阿里在狀態管理和容錯相關的工作

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

深度解讀 Flink 1.11：流批一體 Hive 數倉

Call for Speaker！Flink Forward 全球在線會議議題徵集 ing

詳解 Flink 實時應用的確定性

官方劇透：1.11 發版前我們偷看了 Flink 中文社區發起人的聊天記錄

字節跳動李本超：一年成爲 Committer，我與 Flink 社區的故事

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結