Flink 状态管理

原創

Mr_Hagrid

2020-06-04 06:18

有状态计算是指在程序计算过程中，在Flink程序内部存储计算产生的中间结果，并提供给后续Function或者算子计算结果使用。

状态数据可以维系在本地存储中（Flink的堆内存或者堆外存），也可以借助第三方的存储，例如Flink已经实现的RocksDB，或者自定义其他存储。

state 可以理解为Flink上下文中可以access的一个内存数据库（相比于无状态计算，需要实现同样功能需要借助外部数据库，如Redis），通过存取更新状态，从而实现有状态地算子运算。

案例：

用户想实现CEP（复杂事件处理），获取符合某一特定事件规则的事件，状态计算就可以将接入的事件进行存储，然后等待符合规则的事件触发；
用户想按照分钟、小时、天进行聚合计算，求取当前的最大值、均值等聚合指标，这就需要利用状态来维护当前计算过程中产生的结果，例如事件的总数、总和以及最大，最小值等

在Flink中需要通过创建StateDescriptor来获取相应State的操作类。StateDescriptor主要定义了状态的名称、状态中数据的类型参数信息以及状态自定义函数。每种Managed Keyed State有相应的StateDescriptor，例如ValueStateDescriptor、ListStateDescriptor、ReducingState-Descriptor、FoldingStateDescriptor、MapStateDescriptor等

其中获取状态的方式是在RichFunction的Open方法中,以ValueState为例：

private var leastValueState: ValueState[Long] = _
    override def open(parameters: Configuration): Unit = {
      //创建ValueStateDescriptor,定义状态名称为leastValue,并指定数据类型
      val leastValueStateDescriptor = new ValueStateDescriptor[Long]("leastValue", classOf[Long])
      //通过getRuntimeContext.getState获取State
      leastValueState = getRuntimeContext.getState(leastValueStateDescriptor)
    }

根据是否按key分区，分为Keyed State 和 Operator State

意思是：

（1）keyed state 和 Key以及具体的Operator 绑定。

（2）Operator State 只和Operator算子有关。

根据是否托管Flink自动状态管理，分为Managed State 和 Raw State

Managed State 直接将状态管理交给Flink，checkpoint时存储的是bytes数据。

托管的好处是，Flink可以更好的支持状态数据的重平衡以及更加完善的内存管理。

Managed Keyed State

状态名	解释	获取值	更新值
ValueState[T]	与Key对应的单个值状态	T .value()	.update(T)
ListState[T]	与Key对应的列表的状态	get(i)	.add .addAll .update
ReducingState[T]	单个聚合值的状态, 每次调用`add`方法添加值的时候，会调用reduceFunction，最后合并到一个单一的状态值。	T get()	add(T)
AggregatingState[IN,OUT]	与ReducingState唯一的区别是，输入输出类型可以不同。	OUT get()	add(IN
MapState[UK,UV]	定义与Key对应的键值对的状态	get(UK)	.put .putAll .entries() .keys() .values()

Keyed State 生命周期

对于任何类型Keyed State都可以设定状态的生命周期（TTL），以确保能够在规定时间内及时地清理状态数据。状态生命周期功能可以通过StateTtlConfig配置，然后将StateTtlConfig配置传入StateDescriptor中的enableTimeToLive方法中即可。

//创建StateTtlConfig
val stateTtlConfig = StateTtlConfig
  //指定TTL时长为10s
  .newBuilder(Time.seconds(10))
  //指定TTL刷新时只对创建和写入操作有效
  .setUpdateType(StateTtlConfig.UpdateType.OnCreateAndWrite)
  //指定状态可见性为永远不反悔过期数据
  .setStateVisibility(StateTtlConfig.StateVisibility.NeverReturnExpired)
  .build
//创建ValueStateDescriptor
val valueStateDescriptor = new ValueStateDescriptor[String]("valueState", classOf[Long])
//指定创建好的stateTtlConfig
valueStateDescriptor.enableTimeToLive(stateTtlConfig)

Managed Operator State

应用场景，例如：

统计算子输入数据量

维护Topics分区和Offsets偏移量

案例，统计算子输入数据量：

class numberRecordsCount extends FlatMapFunction[(String, Long), (String, 
Long)] with ListCheckpointed[Long] {
  //定义算子中接入的numberRecords数量
  private var numberRecords: Long = 0L
  override def flatMap(t: (String, Long), collector: Collector[(String, Long)]): Unit = {
    //接入一条记录则进行统计，并输出
    numberRecords += 1
    collector.collect(t._1, numberRecords)
  }
  override def snapshotState(checkpointId: Long, ts: Long): util.List[Long] = {
    //Snapshot状态的过程中将numberRecords写入
    Collections.singletonList(numberRecords)
  }
  override def restoreState(list: util.List[Long]): Unit = {
    numberRecords = 0L
    for (count <- list) {
      //从状态中恢复numberRecords数据
      numberRecords += count }}}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Flink 状态管理

根据是否按key分区，分为Keyed State 和 Operator State

根据是否托管Flink自动状态管理，分为Managed State 和 Raw State

Managed Keyed State

Keyed State 生命周期

Managed Operator State

用戶活躍度標籤建模

Hive SQL 優化

Spark 爲啥比 MapReduce 快？

Flink DataStream API 介紹

一文搞懂網絡協議

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結